část B11–B15
Máme-li dvě kvalitativně rozdílné skupiny (např. muže a ženy), u nichž známe dva alternativní kvalitativní znaky (např. plavec-neplavec), můžeme každou osobu zařadit do jedné ze 4 možných kombinaci a, b, c, d. Stanovíme-li četnosti těchto kombinací, můžeme je zapsat do tzv. čtyřpolní tabulky 2×2:
plavci | neplavci | |
---|---|---|
muži | a | b |
ženy | c | d |
Pro rozhodnutí, zda je mezi skupinami v alternativním znaku statisticky významný rozdíl potřebujeme vypočítat kriterium
Je-li toto kriterium větší nežli kritická hodnota χ2k ve statistických tabulkách pro četnost n = 1 a zvolenou hladinu významnosti (obvykle p = 5 %), je rozdíl mezi skupinami statisticky významný. Můžeme použít následující program:
DATA 125,80,89,26
READ a,b,c,d
s1=a+b:s2=c+d
s3=a+c:s4=b+d
s=s1+s2
ch=s*(a*d-b*c)^2/(s1*s2*s3*s4)
PRINT "chikv=";ch
END
Jsou-li četnosti v kontingenční tabulce 2 × 2 nízké, tzn. když n = a + b + c + d < 20 nebo kterákoliv četnost je nižší nežli 5, pak musíme použít tzv. Fischerův test, který počítá přímo pravděpodobnost p jako hladinu významnosti:
Výpočet p provedeme následujícím programem a výslednou pravděpodobnost převedeme na procenta a porovnáme se zvolenou hladinou významnosti v %.
DATA 8,5,4,1
READ a, b, c, d
x = a: GOSUB f1: n = f
x = b: GOSUB f1: n = n * f
x = c: GOSUB f1: n = n * f
x = d: GOSUB f1: n = n * f
x = a + b + c + d: GOSUB f1: n = n * f
x = a + b: GOSUB f1: m = f
x = c + d: GOSUB f1: m = m * f
x = a + c: GOSUB f1: m = m * f
x = b + d: GOSUB f1: m = m * f
p = m / n
PRINT "p="; p
END
f1:
f = 1
FOR i = 2 TO x
f = f * i
NEXT i
RETURN
Máme-li m kvalitativních proměnných x, které mohou nabývat n kvalitativních hodnot y, můžeme zapsat četnosti všech kombinací x, y do kontingenční tabulky m × n
f11 | f12 | f13 | f1n |
f21 | f22 | f23 | f2n |
… | … | … | … |
fm1 | fm2 | fm3 | fmn |
Chceme-li vědět, zda existuje mezi x, y statisticky významná závislost, vypočítáme kriterium
fij … četnosti z kontingenční tabulky
eij … četnosti očekávané při rovnoměrném rozdělení
Potřebné výpočty provede následující program. Je-li vypočítané kriterium větší, nežli kritická hodnota rozdělení χ2 ze statistických tabulek pro n = (m – 1) · (n – 1) a zvolenou hladinu významnosti p = 5 %, pak můžeme prohlásit závislost mezi proměnnými x, y za statisticky významnou.
DATA 75,36,31
DATA 27,19,33
DATA 31,62,86
INPUT "řádků,sloupců="; r, c
DIM m(r, c), o(r, c), a(r), b(c): d = 0: n = 0
FOR i = 1 TO r: FOR j = 1 TO c
READ m(i, j): n = n + m(i, j)
a(i) = a(i) + m(i, j)
NEXT j: NEXT i
FOR j = 1 TO c: FOR i = 1 TO r
b(j) = b(j) + m(i, j)
NEXT i: NEXT j
FOR i = 1 TO r: FOR j = 1 TO c
o(i, j) = a(i) * b(j) / n
d = d + (m(i, j) – o(i, j)) * (m(i, j) – o(i, j)) / o(i, j)
NEXT j: NEXT i
nu = (r – 1) * (c – 1)
PRINT "chiq,n="; d, nu
c1 = SQR(d / (d + n))
PRINT "kontingenční souč.="; c1
END
U kontingenční tabulky m × n vypočítáme kriterium χ2, které rozhodne, zda závislost, popsaná tabulkou je statisticky významná. Neurčí ale stupeň závislosti mezi kvalitativními znaky. K tomu použijeme korelační součinitel pro seskupená data, který používá četnosti v kontingenční tabulce k výpočtu míry závislosti
K výpočtu použijeme následujícího programu, do jehož řádků DATA vepíšeme četnosti z kontingenční tabulky.
DATA 52,17,0
DATA 34,54,9
DATA 2,12,36
DATA 1,7,88
INPUT "ř,s="; r, s
FOR y = 1 TO r
FOR x = 1 TO s
READ f
sx = sx + f * x: kx = kx + f * x * x
sy = sy + f * y: ky = ky + f * y * y
xy = xy + f * x * y: n = n + f
NEXT x: NEXT y
k = (n * xy – sx * sy) / SQR((n * kx – sx * sx) * (n * ky – sy * sy))
PRINT "r="; k
END
Máme-li skupinu lidí, kterou rozdělíme podle kvalitativního znaku (pořadí apod.) na m skupin, můžeme v jednotlivých skupinách stanovit četnosti f1, f2, f3, … fn. K rozhodnutí, zda se tyto četnosti liší od očekávaných rovnoměrných fe = n / m, vypočítáme kriterium
Tuto hodnotu vypočítáme následujícím programem a srovnáme s kritickou hodnotou χ2 pro počet stupňů volnosti n = n – 1 a pro zvolenou hladinu významnosti (zpravidla p = 5 %). Je-li kriterium větší nežli kritická hodnota, liší se rozdělení od rovnoměrného statisticky významně.
DATA 3,4,9,10,10,6,7,2,2,6
a:
READ f:ON ERROR GOTO b
n=n+f:m=m+1:GOTO a
b:
e=n/m:RESTORE
READ f:c=c+(f-e)^2/e
NEXT i
PRINT "chikv,n=";c,m-1
END
pořadí | jednotlivci | dvouhra | |
---|---|---|---|
1-100 | 3 | 3 |
Vypočítaná kriteria: pro jednotlivce Χ2 = 14.73 pro dvouhru Χ2 = 26.93 |
101-200 | 4 | 12 | |
201-300 | 9 | 7 | |
301-400 | 10 | 9 | Protože kritická hodnota je 18.34, neliší se rozdělení tenistek statisticky významně od rovnoměrného, ve dvojhře však ano. |
401-500 | 10 | 10 | |
501-600 | 6 | 10 | |
601-700 | 7 | 8 | |
701-800 | 2 | 3 | |
801-900 | 2 | 4 | |
901-1000 | 6 | 0 |
Technické řešení této výukové pomůcky je spolufinancováno Evropským sociálním fondem a státním rozpočtem České republiky.