Přechod na menu, Přechod na obsah, Přechod na patičku
     

B. Statistika

část B11–B15


B11 Čtyřpolní tabulka 2x2 a χ2-test

Máme-li dvě kvalitativně rozdílné skupiny (např. muže a ženy), u nichž známe dva alternativní kvalitativní znaky (např. plavec-neplavec), můžeme každou osobu zařadit do jedné ze 4 možných kombinaci a, b, c, d. Stanovíme-li četnosti těchto kombinací, můžeme je zapsat do tzv. čtyřpolní tabulky 2×2:

plavci neplavci
muži a b
ženy c d
s1 = a + b       s2 = c + d       s3 = a + c       s4 = b + d
s = s1 + s2

Pro rozhodnutí, zda je mezi skupinami v alternativním znaku statisticky významný rozdíl potřebujeme vypočítat kriterium

\chi^2=\frac{s.(a.d-b.c)^2}{s_1.s_2.s_3.s_4}

Je-li toto kriterium větší nežli kritická hodnota χ2k ve statistických tabulkách pro četnost n = 1 a zvolenou hladinu významnosti (obvykle p = 5 %), je rozdíl mezi skupinami statisticky významný. Můžeme použít následující program:

DATA 125,80,89,26
READ a,b,c,d
s1=a+b:s2=c+d
s3=a+c:s4=b+d
s=s1+s2
ch=s*(a*d-b*c)^2/(s1*s2*s3*s4)
PRINT "chikv=";ch
END
Příklad:

ve skupině mužů bylo 125 plavců a 80 neplavců, u žen 89 plavkyň a 26 neplavkyň. Vypočítané χ2 = 8,98 je větší nežli kritická hodnota χ2k = 3,8 pro n = 1 a hladinu významnosti p = 5 %, i pro hladinu p = 1 % (χ2k = 6,6). Proto je rozdíl mezi ženami a muži statisticky významný i na hladině 1 % (skutečná hladina je p = 0,276 %).

B12 Fischerův test pro kontingenční tabulku 2 × 2

Jsou-li četnosti v kontingenční tabulce 2 × 2 nízké, tzn. když n = a + b + c + d < 20 nebo kterákoliv četnost je nižší nežli 5, pak musíme použít tzv. Fischerův test, který počítá přímo pravděpodobnost p jako hladinu významnosti:

p=\frac{(a+b)!.(c+d)!.(b+d)!}{n!.a!.b!.c!.d!}

Výpočet p provedeme následujícím programem a výslednou pravděpodobnost převedeme na procenta a porovnáme se zvolenou hladinou významnosti v %.


Literatura

  1. Clauss G. – Ebner H.: Grundlagen der Statistik fur Psychologen, Pedagogen und Soziologen. 1983, 7 th ed., Volk u. Wissen, Berlin, str. 263–267

DATA 8,5,4,1
READ a, b, c, d
x = a: GOSUB f1: n = f
x = b: GOSUB f1: n = n * f
x = c: GOSUB f1: n = n * f
x = d: GOSUB f1: n = n * f
x = a + b + c + d: GOSUB f1: n = n * f
x = a + b: GOSUB f1: m = f
x = c + d: GOSUB f1: m = m * f
x = a + c: GOSUB f1: m = m * f
x = b + d: GOSUB f1: m = m * f
p = m / n
PRINT "p="; p
END
f1:
f = 1
FOR i = 2 TO x
f = f * i
NEXT i
RETURN
Příklad:

pro data v řádku DATA dostaneme p = 0,3466, tedy 34,66 %. Pro hladinu p = 5 % je výsledek testu negativní.

B13 Kontingenční tabulka m × n a χ2-test

Máme-li m kvalitativních proměnných x, které mohou nabývat n kvalitativních hodnot y, můžeme zapsat četnosti všech kombinací x, y do kontingenční tabulky m × n

f11 f12 f13 f1n
f21 f22 f23 f2n
fm1 fm2 fm3 fmn

Chceme-li vědět, zda existuje mezi x, y statisticky významná závislost, vypočítáme kriterium

fij … četnosti z kontingenční tabulky

eij … četnosti očekávané při rovnoměrném rozdělení

\chi^2=\sum_{i=1}^m\sum_{j=1}^n\frac{f_{ij}-e_{ij}}{e_{ij}}

Potřebné výpočty provede následující program. Je-li vypočítané kriterium větší, nežli kritická hodnota rozdělení χ2 ze statistických tabulek pro n = (m – 1) · (n – 1) a zvolenou hladinu významnosti p = 5 %, pak můžeme prohlásit závislost mezi proměnnými x, y za statisticky významnou.

DATA 75,36,31
DATA 27,19,33
DATA 31,62,86
INPUT "řádků,sloupců="; r, c
DIM m(r, c), o(r, c), a(r), b(c): d = 0: n = 0
FOR i = 1 TO r: FOR j = 1 TO c
READ m(i, j): n = n + m(i, j)
a(i) = a(i) + m(i, j)
NEXT j: NEXT i
FOR j = 1 TO c: FOR i = 1 TO r
b(j) = b(j) + m(i, j)
NEXT i: NEXT j
FOR i = 1 TO r: FOR j = 1 TO c
o(i, j) = a(i) * b(j) / n
d = d + (m(i, j) – o(i, j)) * (m(i, j) – o(i, j)) / o(i, j)
NEXT j: NEXT i
nu = (r – 1) * (c – 1)
PRINT "chiq,n="; d, nu
c1 = SQR(d / (d + n))
PRINT "kontingenční souč.="; c1
END
Příklad:

z dat v řádku DATA dostaneme:
chiq,n = 48.2678 4
kontingenční souč.=.3281406

Porovnáním s kritickou hodnotou χ2k (9,5 pro p = 5 % nebo 13,3 pro p = 1 %) plyne, že závislost je statisticky významná i na 1 % hladině významnosti.

B14 Korelační součinitel pro kontingenční tabulku

U kontingenční tabulky m × n vypočítáme kriterium χ2, které rozhodne, zda závislost, popsaná tabulkou je statisticky významná. Neurčí ale stupeň závislosti mezi kvalitativními znaky. K tomu použijeme korelační součinitel pro seskupená data, který používá četnosti v kontingenční tabulce k výpočtu míry závislosti

r=\frac{n.\sum{f}.x.y-(\sum{f}.x).(\sum{f}.y)}{\sqrt{[n.\sum{f}.x^2-(\sum{f}.x)^2][n.\sum{f}.y^2-(\sum{f}.y)^2]}}

K výpočtu použijeme následujícího programu, do jehož řádků DATA vepíšeme četnosti z kontingenční tabulky.


Literatura

  1. The Essentials of Statistics II, Research and Education Association, New Jersey, 1989, str. 182–183

DATA 52,17,0
DATA 34,54,9
DATA 2,12,36
DATA 1,7,88
INPUT "ř,s="; r, s
FOR y = 1 TO r
FOR x = 1 TO s
READ f
sx = sx + f * x: kx = kx + f * x * x
sy = sy + f * y: ky = ky + f * y * y
xy = xy + f * x * y: n = n + f
NEXT x: NEXT y
k = (n * xy – sx * sy) / SQR((n * kx – sx * sx) * (n * ky – sy * sy))
PRINT "r="; k
END
Příklad:

pro DATA, vepsaná do programu a ř,s = 4,3 dostaneme: r = 0,7949191

B15 χ2-test pro jeden výběr

Máme-li skupinu lidí, kterou rozdělíme podle kvalitativního znaku (pořadí apod.) na m skupin, můžeme v jednotlivých skupinách stanovit četnosti f1, f2, f3, … fn. K rozhodnutí, zda se tyto četnosti liší od očekávaných rovnoměrných fe = n / m, vypočítáme kriterium

\chi^2=\sum_{i=1}^n\frac{(f_i-f_e)^2}{f_e}

Tuto hodnotu vypočítáme následujícím programem a srovnáme s kritickou hodnotou χ2 pro počet stupňů volnosti n = n – 1 a pro zvolenou hladinu významnosti (zpravidla p = 5 %). Je-li kriterium větší nežli kritická hodnota, liší se rozdělení od rovnoměrného statisticky významně.

DATA 3,4,9,10,10,6,7,2,2,6

a:
READ f:ON ERROR GOTO b
n=n+f:m=m+1:GOTO a
b:
e=n/m:RESTORE
READ f:c=c+(f-e)^2/e
NEXT i
PRINT "chikv,n=";c,m-1
END
Příklad:

žebříček tenistek TWA ke dni 8. 5. 1995 obsahoval v první tisícovce
tyto četnosti českých tenistek v jednotlivých stovkách:
pořadí jednotlivci dvouhra
1-100 3 3 Vypočítaná kriteria:
pro jednotlivce Χ2 = 14.73
pro dvouhru Χ2 = 26.93
101-200 4 12
201-300 9 7
301-400 10 9 Protože kritická hodnota je 18.34, neliší se rozdělení tenistek statisticky významně od rovnoměrného, ve dvojhře však ano.
401-500 10 10
501-600 6 10
601-700 7 8
701-800 2 3
801-900 2 4
901-1000 6 0
autor: Ing. Josef Kopřiva, recenzent: Mgr. Martin Sebera, Ph.D. |
Fakulta sportovních studií, Masarykova univerzita |
Návrat na úvodní stránku webu, přístupnost |
Stránky Fakulty sportovních studií MU
| Technická spolupráce:
| Servisní středisko pro e-learning na MU
| Fakulta informatiky Masarykovy univerzity, 2011

Technické řešení této výukové pomůcky je spolufinancováno Evropským sociálním fondem a státním rozpočtem České republiky.