1
Měření závislosti kvalitativních znaků
* Kvalitativní znaky mají slovní charakter a získáváme je
v sociologických průzkumech, při terénním šetření apod.
* Slovní charakter mají odpovědi na otázky týkající se
např. pohlaví, vzdělání nebo povolání respondenta atd.
* K popsání vztahu závislosti spojitých kvantitativních
veličin slouží korelační koeficient.
* K charakterizování závislostí kvalitativních znaků slouží
tzv. kontingenční tabulky
Klasifikace kvalitativních znaků:
* Podle počtu možných obměn dělíme znaky na alternativní (také
dvojné) nabývající pouze dvou obměn a znaky množné, nabývající
více než dvou obměn,
* Podle možnosti určit objektivní pořadí obměn na znaky, které mají
pořadový charakter (např. vzdělání, stupeň souhlasu či
nesouhlasu apod.) a znaky, které tento charakter nemají (např.
povolání, typ absolvovaného vzdělání, značka výrobku) a u nichž
tedy objektivní uspořádání není možné,
* Podle toho zda lze jednoznačně vymezit kde ,,začíná" a ,,končí"
každá obměna znaku nebo nelze (např. u barevných odstínů)
dělíme znaky na nespojité a spojité.
Statistická analýza kvalitativních znaků:
* Statistické zpracování jednoho slovního znaku spočívá jednak v jeho
třídění
* Nejčastěji se jedná o prosté třídění podle jednotlivých obměn
slovního znaku a o stanovení absolutních nebo relativních četností.
* V omezené míře lze určovat charakteristiky úrovně (modus, u
pořadových znaků medián, nikdy aritmetický průměr).
* Existují i speciální charakteristiky proměnlivosti.
* O měření závislosti má smysl uvažovat, je-li k dispozici dvojice
slovních znaků.
Měření závislosti kvalitativních znaků
Spočívá v sestavení tzv. kontingenční tabulky
Z kontingenční tabulky lze určit intenzitu závislosti ve dvojici slovních
znaků.
Nelze z ní však určit průběh závislosti. O směru závislosti má smysl se
vyslovit pouze v případě pořadových slovních znaků.
Máme-li dva alternativní znaky dostaneme tzv. čtyřpolní tabulku.
Měření závislosti kvalitativních znaků
Obecně může mít každý kvalitativní znak A r tříd a znak B s tříd.
Výsledky šetření potom sestavujeme do kontingenční tabulky r x s.
Pozorované četnosti v jednotlivých buňkách označujeme dvěma
indexy ­ obecně nij.
Také marginální četnosti mají dva indexy.
Ten, přes který je sčítáno je označen hvězdičkou ­ tedy n2* značí
součet četností v druhé řádce, n*1 značí součet četností v prvním
sloupci.
Tabulka bývá doplněna hodnotami procentuálních (relativních)
četností. Častým požadavkem je konstantní délka intervalů tvořících
třídy.
Stejně jako v případě kvantitativních znaků ověřujeme i zde existenci
vztahu testy významnosti a hodnotíme ho vhodnou mírou závislosti.
Kontingenční tabulka typu r x s
2
Podmíněné četnosti uvnitř kontingenční tabulky mají podobný význam
jako body korelačního diagramu -- jejich rozmístění umožňuje usuzovat
na charakter závislosti tříděných znaků.
Pro posouzení nezávislosti obou znaků můžeme vedle pozorovaných
četností stanovit pro jednotlivá pole také očekávané (teoretické) četnosti :
Posuzování závislosti v kontingenčních tabulkách
tedy jako součin okrajových četností příslušného řádku a sloupce dělený
rozsahem souboru.
Pro každé pole kontingenční tabulky existuje dvojice četností - četnost
pozorovaná a četnost vypočtená.
n
nn
n ji
ij
**'
=
Ukazatel, který pro tabulku jako celek měří rozdílnost pozorovaných a
vypočtených četností v jednotlivých polích tabulky se nazývá čtvercová
kontingence 2

ij
ijij
r
i
s
j n
nn

=
 
= =
2
1 1
2 )(

Je to bezrozměrná hodnota a platí:
Hodnoty nula nabývá pouze v případě, že znaky v kontingenční tabulce
jsou nezávislé.
Hypotéza nezávislosti
02

Vypočtená hodnota se porovnává na zvolené hladině významnosti
p s kritickou hodnotou rozdělení pro (r-1)(s-1) stupňů volnosti.2

2

Hypotézu zamítáme, jestliže vypočtená hodnota je větší než tabulková,
případně, když jí příslušející p-hodnota je menší než zvolená hladina
významnosti.
Jsou konstruovány tak, aby jejich hodnota závisela pouze na intenzitě
závislosti.
Koeficienty kontingence měří intenzitu závislosti pro dvojici slovních
znaků.
Pearsonův koeficient kontingence:
Koeficienty kontingence
n
P
+
= 2
2


nabývá hodnot 10 < P
Maximální možná hodnota čtvercové kontingence závisí na rozměrech
kontingenční tabulky a rozsahu souboru - z toho důvodu není
nejvhodnějším ukazatelem intenzity závislosti.
Na bázi čtvercové kontingence jsou konstruovány vhodnější ukazatele koeficienty
kontingence.
Příklad analýzy závislosti v tabulce r x s
Pro výběr 234 studentů zjišťujeme, zda existuje vztah mezi sportem, který
provozují a sportovními pořady, které sledují v televizi.
Sestavíme tabulku typu 4 x 4:
Hypotéza nezávislosti H0: Neexistuje vztah mezi provozovaným sportem
a sportem sledovaným v TV.
Vypočtená hodnota testovacího kritéria
Kritická hodnota z tabulek pro p=0,05 a (4-1)x(4-1)=9 stupňů volnosti:
Závěr: H0 zamítáme, existuje významný vztah.
3,2732
=
9,162
=
Sílu tohoto vztahu lze posoudit
Pearsonovým koeficientem
kontingence
n
P
+
= 2
2


71,0
2343,273
3,273
=
+
=
Testování nezávislosti v tabulce 2 x 2
Pro výpočet testovacího kritéria v tabulce 2 x 2 můžeme využít
zjednodušený vzorec:
2

))()()((
)( 2
2
dbcadcba
bcadn
++++
-
=
Protože v 2x2 tabulce můžeme uvažovat i směr poruchy nulové hypotézy
­ proto musíme rozhodnout, zda použijeme test jednostranný či
dvoustranný.
Kritické hodnoty jsou uvedeny v tabulce - rozdělení o jednom stupni
volnosti.
2

Příklad analýzy závislosti v tabulce 2 x 2
Hypotéza nezávislosti H0: Relativní četnost studentů se zájmem o
statistiku je nezávislá na pohlaví.
Vypočtená hodnota testovacího kritéria:
Kritická hodnota -rozdělení z tabulek pro p=0,05: 3,84
Závěr: H0 zamítáme, existuje významný rozdíl.
Zájem u chlapců: 30/66 = 0,45
Zájem u dívek: 11/74 = 0,14
Chlapci mají zhruba 3x větší zájem o statistiku než dívky.
8,15
74669941
)36116330(140 2
2
=
×××
×-×
=
2