Přechod na menu, Přechod na obsah, Přechod na patičku
     

B. Statistika

část B16–B21


B16 Kvantily

Někdy potřebujeme rozdělit statistický soubor na určitý počet stejně velkých částí. Na takovém rozdělení je možno na příklad vybudovat klasifikační stupnici sportovní nebo školní.

Je-li soubor dostatečně velký a náhodně vybraný, pak křivka četností jednotlivých znaků (frekvenční křivka) bude podobná Gaussově zvonovité křivce. (Pozn.: reálné soubory obsahují nejmenší a největší znak, proto se křivka četností dotýká svými konci vodorovné osy x na rozdíl od teoretické Gaussovy křivky). Protože plocha pod celou křivkou četností je úměrná počtu všech znaků, je naším úkolem rozdělit tuto plochu na zvolený počet stejných ploch. Hodnoty znaku x, které ukazují polohu dělících svislých čar jsou tzv. kvantily. Tento obecný název můžeme nahradit názvem, prozrazujícím, na kolik částí daný kvantil dělí celou plochu pod frekvenční křivkou a tedy i celý soubor:

  • medián je kvantil, dělící soubor na dvě stejné poloviny, protože je tak definován.
  • tercil je kvantil, určující hodnotu znaku, oddělujícího od celého souboru jednu třetinu.

Protože soubor má třetiny tři, jsou tercily dva – dolní a horní.

  • kvartily jsou kvantily, dělící soubor na čtvrtiny, proto jsou tři a to: dolní, střední (= mediánu) a horní.
  • kvintily dělí soubor na pětiny, existují dva dolní a dva horní. Tento kvantil se hodí k návrhu pětistupňové hodnotící stupnice, podobné školní klasifikaci.
  • sextily dělí soubor na šestiny, je jich 5, střední se rovná mediánu
  • decilů je devět, střední je roven mediánu.
  • procentil (percentil) dělí soubor na 100 dílů,střední je roven mediánu.

Obecně platí, že kvantilů sudého jména je lichý počet a střední je roven mediánu. Kvantily lichého jména mají sudý počet a nemají střední kvantil.

Protože najít souřadnice kvantilů na ose x pomocí statistických tabulek nebo vypočítat je není snadné, je v praxi výhodné uvést jejich souřadnice jako násobky směrodatné odchylky. Bez ní není soubor dostatečně popsán, proto ji vždy počítáme známými vzorci nebo vědeckými kalkulátory. Následující tabulka uvádí názvy kvantilů a jejich souřadnice jako násobky směrodatné odchylky:

Příklad:

v několika školách byl změřen skok vysoký u hochů ve věku 15 let. Vypočítáno: průměr p = 125 cm, směrodatná odchylka s = 15 cm. Pro známkování 1 až 5 vypočítáme kvintily:
známka kvintil výkon (cm)
5 p – 0,8416 · s  horší nežli 112,4
4 p – 0,2533 · s  mezi 112,4 a 121,2
3 p + 0,2533 · s  mezi 121,2 a 128,8
2 p + 0,8416 · s  mezi 128,8 a 137,6
1 lepší nežli 137,6

Graficky můžeme kvantily určit snadno pomocí kumulační křivky zvoleného (zpravidla normálního) rozdělení. Ta je dána také statistickými tabulkami nebo jednoduchými vzorci (polynomy nebo racionálními lomenými funkcemi). Tím se zabývají následující kapitoly.


B17 Kvantily, vypočítané z průměru a směrodatné odchylky

Známe-li aritmetický průměr a směrodatnou odchylku určitého souboru, můžeme volit počet částí, na který bude rozdělen. Kvantily mohou klasifikovat různé výsledky, jestliže průměr je významnější nežli nejlepší hodnota neboli rekord. To je případ školní klasifikace, ne však bodování ve sportu.

Následující program vypočítá všechny kvantily pro daný počet částí.


Literatura

  1. Abramowitz M. – Stegun Irene A.: Handbook of mathematical functions. NBS, 1963, vzorec 26.2.23

a =.010328: b =.802853: c = 2.515517
d =.001308: e =.189269: f = 1.432788
INPUT "pruměr,smodch "; m, s
INPUT "pocet částí "; n
q = 1 / n: DIM y(n)
FOR i = 1 TO n / 2: p = i * q
t = SQR(LOG(1 / (p * p)))
g = (a * t + b) * t + c
h = ((d * t + e) * t + f) * t + 1
z = t – g / h: x = m – z * s: y(i) = m + z * s
PRINT p * 100; "%"; TAB(12); USING "#####.###"; x
NEXT i
FOR i = INT(n / 2) + 1 TO n – 1
PRINT i * q * 100; "%"; TAB(12); USING "#####.##"; y(n – i)
NEXT i
END
Příklad:

průměr = 125, směr.odchylka = 15.
Zvolíme-li počet částí n = 5 (kvíntily), dostaneme:
část kvintil
20% 112.378
40% 121.206
60% 128.793
80% 137.621
Ve školní praxi budeme výkon horší nežli 112.4 klasifikovat 5, mezi 112.4 a 121.2 jako 4, mezi 121.2 a 128.8 jako 3, mezi 128.8 a 137.6 jako 2 a lepší nežli 137.6 jako nejlepší 1.

B18 Procentily a směrodatná odchylka

Má-li vzorek normální rozdělení, můžeme počítat procentily z aritmetického průměru a směrodatné odchylky. Pro m = 0 a sx = 1 můžeme použít tuto tabulku:

desítky procentilů
jednotky
procentilů
1-10 11-20 21-30 31-40 41-50 51-60 61-70 71-80 81-90 91-99
1 -2.326 -1.227 -0.806 -0.496 -0.227 0.025 0.279 0.553 0.878 1,341
2 -2.054 -1.175 -0.772 -0.468 -0.202 0.050 0.405 0.583 0.915 1.405
3 -1.881 -1.126 -0.739 -0.440 -0.176 0.753 0.332 0.613 0.964 1.476
4 -1.751 -1.080 -0.706 -0.412 -0.151 0.100 0.358 0.643 0.995 1.555
5 -1.645 -1.036 -0.674 -0.385 -0.125 0,125 0.385 0.674 1.036 1.645
6 -1.555 -0.995 -0.643 -0.358 -0.100 0.151 0.412 0.706 1.080 1.751
7 -1.476 -0.954 -0.613 -0.332 -0.075 0.176 0.440 0.739 1.126 1.881
8 -1.405 -0.915 -0.583 -0.305 -0.050 0.202 0.468 0.772 1.175 2.054
9 -1.341 -0.878 -0.553 -0.279 -0.025 0.227 0.496 0.806 1.227 2.326
10 -1.282 -0.842 -0.524 -0.253 0 0.253 0.524 0.841 1.282 -

Jiné kvantily lze počítat pomocí této tabulky. Na příklad kvartily jsou 25., 50. a 75. procentil. Odpovídající hodnoty jsou -0.674, 0 a 0.674. Těmito hodnotami násobíme směrodatnou odchylku a výsledek přičteme k průměru. Pro průměr m = 120 a směrodatnou odchylku 10 budou kvartily

  • 1. kvartil       120 – 0.674 x 10 = 113.25
  • 2. kvartil       120
  • 3. kvartil       120 + 0.674 x 10 = 126.74
  1. kvantily přepočítáme na procentily: p = 100 / n
    kde n je z tabulky:
    kvantil n
    tercil 3
    kvartil 4
    kvintil 5
    sextil 6
    decil 10
    např. kvartil, n = 4, p = 25, v průsečíku tabulky x = 2, y = 5 je k = -0,674

  2. počítáme pro průměr m = 120 a sx = 10 podle vzorce Q1 = m + k · sx = 120 – 0.674 · 10
    Druhý kvartil = průměr = 120
    Třetí kvartil Q3 = m + k · sx = 120 + 0.674 · 10 = 126.74

B19 Vyhodnocení testové baterie procentily jednotlivců
a jejich grafem

K měření základních nebo speciálních vlastností sportovců (rychlosti, síly, vytrvalosti, pohyblivosti apod.) se používají vhodně sestavené testové baterie. Ty se skládají z řady testů, jejichž průměry a směrodatné odchylky lze vypočítat jiným programem (B04). Pak je možné srovnávat výkony jednotlivce s průměry celé skupiny pomocí procentilů, které ukazují, kolik procent členů skupiny je horších nežli tento jednotlivec. Průměru skupiny při tom odpovídá 50. procentil. Všechny výpočty a kreslení grafů provede následující program.

Po jeho spuštění vložíme počet disciplin, pak názvy disciplin, jejich průměry a směrodatné odchylky a (= ano) jestliže s růstem výsledku roste i jeho hodnota (skoky, vrhy), n (= ne) jestliže je tomu opačně (časy).

Po vložení dat o souboru vkládáme data jednotlivců (pouze členů skupiny!): jméno, data narození, specializace, pak podle názvu discipliny výsledky jednotlivce. Po vložení všech dat jednotlivce se na obrazovce objeví data o jednotlivci, jeho výkony a odpovídající procentily, nakreslí se sloupkové diagramy procentilů se základem na společné ose 50. procentilu (odpovídajícího průměru).

Zkontrolujeme, zda všechny údaje a grafy jsou v pořádku a vše vytiskneme příkazem (klávesou) PrtSc (Print Screen). Pak můžeme zpracovat další osobu.

INPUT "pocet disciplin "; n
DIM t$(n), p(n), s(n), x(n): FOR i = 1 TO n
PRINT i;: INPUT "disciplina,prumer,smer.odch,stoupe a "; t$(i), p(i), s(i), i$(i)
NEXT i
a:
INPUT "jmeno,naroz,sport "; j$, d$, s$
FOR i = 1 TO n: PRINT t$(i): INPUT "x="; x(i): NEXT i
CLS: SCREEN 10: KEY OFF
PRINT j$; " "; d$; " "; s$
LOCATE 3, 14: PRINT "vykon procentil"
LOCATE 3, 44: PRINT "50%"
FOR i = 1 TO n: GOSUB g
IF i$(i) = "a" THEN pr = 50 + q ELSE pr = 50 – q
LOCATE i + 3, 1: PRINT t$(i);
LOCATE i + 3, 12: PRINT USING "####.###"; x(i); pr
LINE (275 + pr * 1.5, i * 14 + 40)-(350, i * 14 + 30),, B
NEXT i: SLEEP 50
GOTO a
END
g:
x = (x(i) – p(i)) / s(i)
a = x: s = x: b = -x * x / 2: m = 1
h:
a = a * b / m: c = a / (2 * m + 1)
IF ABS(c) >.000001 THEN LET s = s + c: m = m + 1: GOTO h
q = s * 39.89423: RETURN
Příklad:

skupina měla průměry a směrodatné odchylky pro
beh 60m 8.1 0.32
skok vys 148 6.4
vrh kouli 11.42 1.21
Pak atlet Novák, naroz. 1975 dostal za běh 7.8 s, skok 153 a vrh koulí
10,96 tyto procentily: 82.575, 78.267, 35.191.

B20 Graf procentního rozdělení

Je-li výkon sportovce určen součtem 3 časů, po sobě následujících (triatlon) nebo 3 čísly pro různé discipliny, můžeme potřebovat hodnotit nejen celkový součet, ale i procentní rozdělení. Pak použijeme následující program s grafickým výstupem.

DATA 250,260,300
DATA 180,300,240
DATA 120,240,190
DIM m(3, 3), n(3, 3)
FOR i = 1 TO 3: FOR j = 1 TO 3
READ m(i, j): NEXT j: NEXT i
FOR i = 1 TO 3: n(i, 1) = m(i, 1): FOR j = 2 TO 3
n(i, j) = n(i, j – 1) + m(i, j)
NEXT j: NEXT i
ma = 0
FOR i = 1 TO 3
IF n(i, 3) > ma THEN LET ma = n(i, 3)
NEXT i
s = 300 / ma
SCREEN 10: CLS: KEY OFF
FOR i = 1 TO 3
FOR j = 1 TO 3
LINE (230, i * 40 – 28)-(230 + s * n(i, j), i * 40 – 4),, B
NEXT j: NEXT i
FOR i = 1 TO 3: FOR j = 1 TO 3
p(i, j) = m(i, j) / n(i, 3) * 100
LOCATE i * 3 – 1, j * 8 – 6: PRINT USING "####.#"; p(i, j)
LOCATE i * 3 – 1, 70: PRINT n(i, 3)
NEXT j: NEXT i
END

B21 Pravděpodobnostní papír

Všechny postupy a vzorce statistiky, zejména testy významnosti předpokládají normální rozdělení souboru, tj. podle Gaussovy zvonovité křivky, dané funkcí.

Chceme-li ověřit, zda rozdělení výběru odpovídá normálnímu rozdělení, můžeme provést Kolmogorov-Smirnovův test. Jeho grafická verse se dá provést na tzv. pravděpodobnostním papíře, který není u nás vždy k dostání. V dalším textu si popíšeme jeho narýsování.

Pravděpodobnostní papír má vodorovnou osu danou rozsahem ± 6 směrodatných odchylek a průměrnou hodnotou uprostřed. Svislá osa má uprostřed 50 % a sahá zpravidla od 0,02 % do 99,98 %. Do tohoto obdélníku (nebo čtverce) můžeme zakreslit kumulativní křivku Gaussovy křivky jako přímku metodou, kterou popisuje Reisenauer. Hlavní problém pravděpodobnostního papíru je právě v nelinearitě svislé osy. Následujícím programem můžeme vypočítat souřadnice této nelineární stupnice.

Jak jsme uvedli v úvodu, existují profesionální statistické programy, které nabízejí širokou škálu funkcí a procedur s velmi dobrou možností grafických výstupů. Srovnání základních statistických metod několika vybraných sw (Adstat, Unistat, Statgraphics, Microsoft Excel) předkládají skripta [23].


Literatura

  1. Reisenauer R.: Metody matematické statistiky. Praha, SNTL, 1965, str. 119 (1970, str. 128)
  2. Abramowitz M.- Stegun Irene: Handbook of Mathematical Functions, NBS, 1964, vzorec 26.2.23
  3. Seberová, H. – Sebera, M. Počítačové zpracování dat II. 1. vyd. Vyškov: VVŠ PV, 1999. 134 s. ISBN 80 -7231 -052 -6.

INPUT "delka stup.="; l: l = l / 1.18
b:
INPUT "proc="; p: IF p > 50 THEN r = 1 – p / 100: zn = -1: GOTO c
r = p / 100: zn = 1
c:
t = SQR(LOG(1 / (r * r)))
g = (.010328 * t +.802853) * t + 2.515517
h = ((.001308 * t +.189269) * t + 1.432788) * t + 1
z = t – g / h
y = – z * l / 6
PRINT p; using "######.##"; y * zn
GOTO b
END
Příklad:

L = 100 mm
proc. kóta(mm) proc. kóta(mm)
0.02 -50
1 -32.86 60 3.57
10 -18.10 70 7.40
20 -11.88 80 11.88
30 - 7.40 90 18.10
40 - 3.57 99 32.86
50 0 99.98 50.00
autor: Ing. Josef Kopřiva, recenzent: Mgr. Martin Sebera, Ph.D. |
Fakulta sportovních studií, Masarykova univerzita |
Návrat na úvodní stránku webu, přístupnost |
Stránky Fakulty sportovních studií MU
| Technická spolupráce:
| Servisní středisko pro e-learning na MU
| Fakulta informatiky Masarykovy univerzity, 2011

Technické řešení této výukové pomůcky je spolufinancováno Evropským sociálním fondem a státním rozpočtem České republiky.