aneb
PRŮVODCE
STATISTICKÝM ZPRACOVÁNÍM
KVANTITATIVNÍCH DAT
Z Á K L A D Y S T A T I S T I K Y
Přednášky np4001+nk4001
Doc. RNDr. Jiří Zháněl, Dr.
DOPORUČENÁ LITERATURA
Anděl, J. (1993). Statistické metody. Praha:
Matfyzpress.
Cyhelský, L., Kahounová, J. & Hindls, R. (1996).
Elementární statistická analýza. Praha:
Management Press.
Gajda,V. & Zvolská, J. (1982). Úvod do
statistických metod. PF Ostrava. Skriptum.
Gibilisco, S. (2009). Statistika bez předchozích
znalostí. Brno: Computer Press.
DOPORUČENÁ LITERATURA
Hendl, J. (2012). Přehled statistických metod
zpracování dat. Analýza a metaanalýza dat.
Praha: Portál.
Kovář, R. & Blahuš, P. (1989). Aplikace vybraných
statistických metod v antropomotorice. Praha:
SPN. Skriptum.
Meloun M. & Militký, J. (1994). Statistické
zpracování experimentálních dat. Praha: Plus.
DOPORUČENÁ LITERATURA
Meloun M. & Militký, J. (1996). Statistické
zpracování experimentálních dat. Sbírka úloh.
Pardubice: Univerzita Pardubice.
Seger, J. & Hindls, R. (1993). Statistické metody v
ekonomii. Praha: H & H.
Seger, J. & Hindls, R. (1995). Statistické metody v
tržním hospodářství. Praha: Victoria Publishing.
A mnoho dalších …
PROGRAM PŘEDNÁŠEK
1.ÚVOD
1.1 Historie statistiky, pojem a struktura
statistiky, základní statistické pojmy
1.2 Teorie měření, měřící stupnice (škály),
metodologické problémy měření
PROGRAM PŘEDNÁŠEK
2. DESKRIPTIVNÍ (POPISNÁ) STATISTIKA
2.1 Statistické třídění dat, zpracování a
grafické znázornění
2.1.1 Jednorozměrné rozdělení četností
2.1.2 Jednorozměrné intervalové rozdělení četností
2.1.3 Grafické znázornění rozdělení četností
2.2 Míry polohy
2.3 Míry variability
2.3.1 Kvantilové míry variability
2.3.2 Momentové míry variability
PROGRAM PŘEDNÁŠEK
2.4 Standardní skóre
2.5 Míry závislosti
2.5.1 Závislost pevná, volná, statistická a korelační
2.5.2 Lineární korelace a lineární regrese
2.5.3 Součinová a pořadová korelace
3. ANALYTICKÁ STATISTIKA
3.1 Věcná a statistická významnost
3.2 Testování statistických hypotéz
1.1 HISTORIE STATISTIKY
(k samostudiu)
„Nur wer die Vergangenheit kennt, hat
eine Zukunft“.
„Only he who knows the past has a
future“.
Wilhelm von Humboldt
(1767-1835, německý učenec a státník, spoluzakladatel
Humboldt-Universität zu Berlin).
1.1 HISTORIE STATISTIKY
Nejstarší písemné památky statistické povahy
pocházejí ze Sumeru (nejstarší stát světa 3000 –
2000 př. n. l., Perský záliv).
Hliněné destičky obsahují záznamy o časových
intervalech, počtech osob, počet domácího
zvířectva, množství úrody, atd.
1.1 HISTORIE STATISTIKY
Pojem statistika pochází z latinského
slova status (tj. postavení, stav).
Počátky statistických postupů využívány
již ve středověku ke zjišťování počtu
obyvatelstva, velikosti majetku, území,
obchodu, armády, atd.
Statistika jako součást přednášek na
středověkých univerzitách =>
(1) UNIVERZITNÍ STATISTIKA.
1.1 HISTORIE STATISTIKY
V 17. století se Angličané John Graunt a William
Petty zabývali zkoumání různých hromadných
společenských jevů za pomocí číselných
charakteristik skupin obyvatelstva (např. počty
narozených a zemřelých osob, počtem obyvatel
a složením rodin).
Tyto postupy byly nazvány
(2) POLITICKÁ ARITMETIKA
(využitelné politicky,
používány aritmetické
postupy).
17. století:
(3) TEORIE PRAVDĚPODOBNOSTI
• Francie (B. Pascal, P. de Fermat, de Moivre,
de Laplace, Poisson);
• Holandsko (Ch. Huygens);
• Švýcarsko (J. Bernoulli, Euler);
• Německo (C. F. Gauss)
• Rusko (Čebyšev, Markov, Ljapunov).
1.1 HISTORIE STATISTIKY
19. století = postupná integrace:
UNIVERZITNÍ STATISTIKA + POLITICKÁ
ARITMETIKA + TEORIE PRAVDĚPODOBNOSTI
 MODERNÍ STATISTIKA
Aplikace do praxe, do výzkumu o příčinných
vztazích mezi hromadnými jevy
(Belgie, L. A. J. Quételet).
Později pronikání statistiky do přírodních a
technických věd
(Anglie, Galton, Pearson a Fisher).
HISTORIE STATISTIKY V ČECHÁCH
Nejstarší dochovaný zápis:
„SOUPIS MAJETKU LITOMĚŘICKÉHO KOSTELA
Z ROKU 1058“
(součást zakládací listiny kapituly sv. Štěpána v
Litoměřicích, Český statistický úřad, www.czso.cz).
VÝZNAMNÁ DATA
➢ 6. března 1897 … zřízen Zemský
statistický úřad Království českého,
(první statistický úřad na území dnešní
České republiky).
➢ 1909 … vyšla první „Statistická příručka království
Českého“.
➢ 13. října 1753 … patent císařovny
Marie Terezie (1717 – 1780) o
každoročním sčítání lidu,
HISTORIE STATISTIKY V ČECHÁCH
VÝZNAMNÁ DATA
1918 (vznik Československa) => zákon č. 49
o organizaci statistické služby (1919).
1919 … založen STÁTNÍ ÚŘAD STATISTICKÝ (SÚS)
jako orgán pověřený celostátními statistickými
šetřeními (např. sčítání lidu).
1.1.1993 (vznik ČR) všechny kompetence
převzal ČESKÝ STATISTICKÝ ÚŘAD (ČSÚ).
HISTORIE STATISTIKY V ČECHÁCH
NEJŽÁDANĚJŠÍ INFORMACE: inflace, makroekonomické
údaje, obyvatelstvo, regiony, města, obce, ročenky, sčítání
lidu, volební výsledky, základní údaje o ČR.
Český statistický úřad (ČSÚ)
1.1.2 POJEM A STRUKTURA STATISTIKY
STATISTIKA OBECNĚ
Obor zabývající se
zpracováním, rozborem a zveřejňováním
informací,
které kvantitativně charakterizují
zákonitosti společenského života
(Encyklopedický slovník, 1982).
1.1.2 POJEM A STRUKTURA STATISTIKY
MATEMATICKÁ STATISTIKA
Matematický obor zabývající se
zpracováním dat a rozborem statistických
charakteristik
popisovaného statistického souboru
(Encyklopedický slovník, 1982)
Např. Pravděpodobnost a statistika (Friesl, 2004).
Definice náhodného jevu:
Je-li dána množina Ω (všech výsledků
náhodného pokusu, tj. pokusu, jehož výsledek
není jednoznačně určen podmínkami, za
kterých je prováděn), pak náhodným jevem (v
Ω) nazýváme každou podmnožinu množiny Ω.
Základy statistiky = opravdu jen ZÁKLADY!
(viz příklad)
(MATEMATICKÁ) STATISTIKA
1. DESKRIPTIVNÍ
(popisná)
2. ANALYTICKÁ
(inferentní, induktivní,
srovnávací)
1. DESKRIPTIVNÍ STATISTIKA
se zabývá zpracováním a popisem dat.
Poskytuje metody umožňující přehledné a názorné
zpracování dat, např. v podobě:
▪tabulek,
▪ grafů (znázornění rozložení četností),
▪ výpočtu základních statistických charakteristik (např.
aritmetický průměr nebo korelační koeficient).
2. ANALYTICKÁ (INFERENTNÍ) STATISTIKA
vychází z výsledků deskriptivní statistiky (zpracování
dat), umožňuje nám data analyzovat, tzn. vyhodnotit.
Tedy např. posoudit, zda
diference mezi středními hodnotami (M) výsledků
testu „skok daleký z místa“ tréninkových skupin A a
B je statisticky (věcně) významná,
což může být vysvětleno vlivem různých tréninkových
metod.
SYMBOLICKÉ ZNÁZORNĚNÍ FUNKCE STATISTIKY
STATISTIKA = ZPRACOVÁNÍ + POPIS + ANALÝZA DAT
1.1.3 ZÁKLADNÍ STATISTICKÉ POJMY
STATISTICKÝ SOUBOR
je souhrn (množina) statistických jednotek stejného
druhu
Rozlišujeme pojmy základní soubor a výběrový soubor.
Rozsah základního souboru N, výběrového souboru n.
Základní soubor (populace, N) je soubor všech
statistických jednotek, které teoreticky mohou
být předmětem sledování.
Např. 1) všichni studenti oboru TV a sport v ČR, Evropě,
2) všichni členové fotbalové reprezentace v roce 2022,
3) všechny pětileté děti v ČR narozené k 1.1. 2022, …
ZÁKLADNÍ SOUBOR (ZS)
(stručné opakování z Metodologie)
ZS má zpravidla značný rozsah, zjištění zkoumaných
vlastností všech prvků je buďto nemožné nebo je
příliš časově a ekonomicky náročné.
Výzkumné šetření (zjištění) se proto provádí u
vybraných jednotek ze základního souboru =>
výběrový soubor (n).
Výběrový soubor je náhodnou
podmnožinou prvků základního
souboru a reprezentuje jej.
Z výsledků výzkum úrovně znaků (TV, H, síla)
výběrového souboru (náhodně vybraného) je možno
usuzovat – při splnění určitých podmínek – na
vlastnosti základního souboru.
VÝBĚROVÝ SOUBOR (VS) získáváme tzv. NÁHODNÝM
VÝBĚREM.
Každý prvek základního souboru má stejnou možnost
být vybrán.
O vybrání či nevybrání do výběrového souboru
rozhoduje tedy pouze náhoda.
Př. ZS (N=10 000) = studenti TV v CZ, VS (n=100)
METODY NÁHODNÉHO VÝBĚRU PRVKŮ DO
VÝBĚROVÉHO SOUBORU (VS)
I. LOSOVÁNÍ
• losování statistických jednotek s jejich
vracením do osudí (u malých souborů),
• losování statistických jednotek bez vracení
do osudí (u velkých souborů),
• generátor náhodných čísel (software)
Generátor náhodných čísel ukázat na příkladu
(Data-vypocty)!
II. Tabulka náhodných čísel
Např. ze základního souboru N=540 máme vybrat n=12
1. V tabulce zvolíme libovolné číslo, od něj čteme
uvedená čísla s potřebným počtem míst (např. N=540 =>
trojmístná čísla).
2. Do výběru zahrnujeme ty jednotky základního
souboru, jejichž přiřazená čísla jsou < 540.
3. Čísla vyšší než rozsah základního souboru
vynecháme.
4. Pokračujeme tak dlouho, než dosáhneme
požadovaného rozsahu výběrového souboru.
N=540
n=12
VÝSLEDEK: 936 (mimo), 175, 154, 928, 532, 571, 509,
047, 510, 341, 397, 038, 322, 437, 858, 616, 570, 418.
Možno vyzkoušet pomocí Excelu – Analýza dat –
Generátor náhodných čísel:
Typ rozložení - diskrétní
Počet proměnných – dle počtu číslic
jednociferné n = 1
dvouciferné n = 2
atd.
Pro N=54O se počet proměnných rovná 3.
IV. STRATIFIKOVANÝ VÝBĚR
… vychází z rozdělení základního souboru na skupiny
(straty), z každé z nich se pak dělá náhodný výběr.
Je žádoucí proporcionální zastoupení ve výběru ze
straty (neproporcionální ve specifických případech).
Př. 1. výzkumný soubor „vysokoškoláci“ (= studující
techniky, univerzity, uměleckých vysokých škol, atd.).
III. SKUPINOVÝ VÝBĚR
… užívá se, je-li základní soubor velmi početný a je
uspořádán do skupin (např. třídy ve škole), z nichž
vybíráme skupiny – nutný je dostatečný počet skupin.
Př. 2. výzkumný soubor „učitelé s praxí do …“
(1. do 5 let, 2. do 10 let, 3. do 15 let, do 20 let, atd.).
V. ZÁMĚRNÝ VÝBĚR
… nerozhoduje náhoda, výzkumník sám vybírá jedince
jež považuje za typické (subjektivní výběr).
Výsledky se týkají jen daného výběru (v závěrech
výzkumu nutná formulace:
„na daném vzorku se prokázalo. že…“)!!!
Problém: výběr x dobrovolníci (rozdíly - vyšší výkon,
motivace, větší potřeba sociálního uznání, …).
Nelze je použít při standardizaci testů!
Další podrobnosti např.
Chrástka, M. (2007). Metody pedagogického výzkumu.
STATISTICKÉ JEDNOTKY
jsou prvky statistického souboru, které mají alespoň
jednu společnou vlastnost (znak)
Statistickými jednotkami mohou být např. osoby
(subjekty), věci (objekty), resp. události, jejichž vlastnosti
nás zajímají.
Zjišťujeme-li pouze jeden statistický znak (např.
tělesnou výšku), hovoříme o jednorozměrném
statistickém souboru.
Zjišťujeme-li dva nebo více znaků, hovoříme o
dvourozměrném (výška a hmotnost), resp.
vícerozměrném statistickém souboru (3 a více znaků).
STATICKÉ ZNAKY
(stručné opakování z Metodologie)
Vyjádření hodnot statistických znaků
(proměnných) je možné slovy nebo čísly.
Klasifikace:
1. Slovní proměnné = alfabetické
(kategoriální)
se označují jako KVALITATIVNÍ ZNAKY.
2. Číselné proměnné = numerické
se označují jako KVANTITATIVNÍ ZNAKY.
STATICKÝ ZNAK
je společná vlastnost jednotek statistického souboru
Statistické znaky vyjadřují vlastnosti statistických jednotek.
1. KVALITATIVNÍ ZNAKY (kategoriální, slovně)
Např. muž/žena, plavec/neplavec, zdravý/nemocný
barva očí: zelené, modré, hnědé, …,
herní kategorie: žáci mladší, starší, junioři, …
 alternativní (binární,
dichotomické):
nabývá-li znak pouze
dvou variant (muž/žena)
 množné (polytomické):
nabývá-li znak více než
dvou variant (barva očí:
zelená, modrá, černá).
2. KVANTITATIVNÍ ZNAKY
 spojité neboli kontinuální
nabývají libovolných reálných číselných hodnot:
např. výsledek v běhu na 100 m (10,7 s),
ve skoku vysokém (220 cm).
Mezi 2 hodnotami může být vždy další hodnota:
(10,7 s; 10,72 s; 10,723 s)
 nespojité neboli diskrétní
(nabývají pouze konečný počet číselných hodnot,
nejčastěji z oboru celých nezáporných čísel.
např. počet úspěšných hodů na koš, leh-sedy, kliky).
1.2 TEORIE MĚŘENÍ, MĚŘÍCÍ STUPNICE (ŠKÁLY)
1.2.1 ZÁKLADNÍ POJMY TEORIE MĚŘENÍ
Měření … v průběhu historického vývoje lidské
společnosti je běžné jeho každodenní užití (např.
hodinky, tachometr automobilu, váha, atd.).
Historické počátky měření … porovnávání objektů s
počtem prstů, délkou palce, délkou chodidla, lokte,
paže, tj. primitivní měřící způsoby.
Rozvoj vědy a techniky složitých měřících přístrojích.
1.2 TEORIE MĚŘENÍ, MĚŘÍCÍ STUPNICE (ŠKÁLY)
1.2.1 ZÁKLADNÍ POJMY TEORIE MĚŘENÍ
a) Měřitelnost fyzikálních vlastností
(délka, čas, hmotnost),
Problematiku kvantifikace (měření) řeší obor nazývaný
TEORIE MĚŘENÍ.
b) Měřitelnost psychických vlastností
(inteligence, strach, postoje atd.).
REPREZENTAČNÍ TEORIE MĚŘENÍ (Campbell):
… měření jako „přiřazování číslic k reprezentaci
vlastností“.
Později doplněna o formulaci „…za měření lze
považovat každé přiřazování číslic k objektům nebo
událostem … podle pravidel (Stevens).
KLASICKÁ KONCEPCE MĚŘENÍ ROZLIŠUJE
(1) FUNDAMENTÁLNÍ (ZÁKLADNÍ) MĚŘENÍ
(2) ODVOZENÉ MĚŘENÍ
Další autoři zmiňují
(3) MĚŘENÍ ASOCIATIVNÍ
(Berka, 1977) resp. asociační (Blahuš, 1996), označované
rovněž jako měření per fiat, per Definition, by fiat či měření
na základě konvence.
(1) FUNDAMENTÁLNÍ (ZÁKLADNÍ)
MĚŘENÍ
„se vztahuje na bezprostřední měření
veličin“ a je to „každé měření, které
nezahrnuje žádná předcházející
měření“.
Příklad: měření tělesné výšky
(2) ODVOZENÉ MĚŘENÍ
„předpokládá jiná, dříve provedená
měření, z nichž je odvozeno na
základě vztahů“; a tedy „závisí na
předcházejících měřeních“.
Příklad: „měření“ objemu kvádru
(3) ASOCIATIVNÍ MĚŘENÍ (ASOCIAČNÍ)
je takové měření, kdy „je přímo měřená veličina
asociována s nepřímo měřitelnou veličinou“.
Příklad 1.
Při měření teploty vycházíme ze závislosti
změny objemu kapaliny na teplotě.
Příklad 2.
Při testování úrovně vytrvalosti pomocí Cooper testu
vycházíme z předpokládané asociace (vztahu) mezi
uběhnutou vzdáleností (měřitelná) a úrovní
vytrvalostní schopnosti (nepřímo měřitelná).
1.2.2 MĚŘÍCÍ STUPNICE (ŠKÁLY)
Empirická
proměnná
Tělesná výška
Numerická
proměnná
cm
Numerická
proměnná
Testové skore
Empirická
proměnná
Kondice
Rozdíl ve
způsobu měření
a přiřazení!
TEORII ŠKÁL
(pojem škála, resp. stupnice)
ZÁKLADNÍ DRUHY ŠKÁL (STUPNIC)
1. NOMINÁLNÍ škála
(jmenná, klasifikační)
2. ORDINÁLNÍ škála
(pořadová)
3. METRICKÉ škály
NEMETRICKÉ
METRICKÉ
INTERVALOVÁ
POMĚROVÁ
MÍRY VARIABILITY
DATA
NOMINÁLNÍ ORDINÁLNÍ METRICKÉ
MÍRY POLOHY
MODUS MEDIÁN ARITMETICKÝ
PRŮMĚR
Entropie
(uspořádanost)
Kvartilové rozpětí
Kvartilová odchylka
Rozptyl
Standardní odchylka
Variační koeficient
1. NOMINÁLNÍ ŠKÁLA
(jmenná, klasifikační)
… je škála založena na jakémkoliv přiřazování
číslic ve smyslu pouhého pojmenování.
Jde vlastně o pojmenování osob či skupin čísly, o
uspořádání do tříd, které se navzájem vylučují.
Např. pohlaví (M/Ž), kuřák/nekuřák,
národnost, čísla hráčů, věkové kategorie (U10–U18)
1. NOMINÁLNÍ ŠKÁLA
Třídění na znaky:
1. alternativní (binární, dichotomické) = 2 možnosti
(plavec/neplavec; kuřák/nekuřák; muž/žena)
2. množné (polytomické) = více než 2 možností
(oči zelené, modré, hnědé;
věkové kategorie: žáci mladší, starší, junioři)
--------------------------------------------------------------------------------------
Základní empirická operace: „určení rovnosti“.
Možné relace: =, ,
Zpracování znaků: neparametrické statistické metody
2. ORDINÁLNÍ ŠKÁLA (pořadová)
Škála umožňuje uspořádání objektů do pořadí,
je možno určit vztah větší či menší, těžší či lehčí, atd.
Nejsou známy odstupy (intervaly) mezi znaky (čísly) !!!
Např. školní známky, stupnice tvrdosti, pořadí v cíli.
--------------------------------------------------------------------------------------------------------
Základní empirické operace:
„určením rovnosti“ a „určením vztahu více nebo méně“.
Relace: =, , >, <,
Zpracování znaků: neparametrické statistické metody.
… předpokládá přirozené uspořádání objektů
vzhledem k nějaké vlastnosti.
3. METRICKÉ ŠKÁLY
(INTERVALOVÁ A POMĚROVÁ)
3. 1 INTERVALOVÁ ŠKÁLA
… vyžaduje stanovení měrové jednotky a počátku, jsou
přípustné všechny aritmetické operace.
Nula je zvolená!!! => stanovení počátku dohodou.
Je zavedena jednotka měření, tzn. jsou známy
odstupy (intervaly) mezi hodnotami (čísly).
Nutný předpoklad: normální rozložení četností!
Např. letopočet (Diokleciánův, byzantský, křesťanský,
čínsky, atd.),
teplota ve ○C (bod tání ledu = 0°C a bod varu = 100°C
při tlaku vzduchu 1013,25 hPa).
3. 2 POMĚROVÁ ŠKÁLA
… z formálního hlediska vlastně intervalová škála
s přirozeným počátkem, jsou přípustné všechny
aritmetické operace.
Nula je absolutní … (nepřítomnost jevu).
Např. čas, věk, výška, hmotnost, teplotní
stupnice dle Kelvina (v podstatě všechny
fyzikální jednotky).
Statistické metody: parametrické i neparametrické.
3. METRICKÉ ŠKÁLY
(INTERVALOVÁ A POMĚROVÁ)
NEMETRICKÉ ŠKÁLY METRICKÉ ŠKÁLYTYP ŠKÁLY
NOMINÁLNÍ ORDINÁLNÍ INTERVALOVÁ POMĚROVÁ
Příklady Číselné označení
barev,
psychologického
typu, pohlaví, atd.
Školní známky,
stupnice tvrdosti,
služební pořadí,
Richterova stupnice
Teplota ve°C,
Fahrenheita, letopočet,
inteligenční kvocient
Teplota °Kelvina, věk,
váha, výška, velikost
úhlu, čas
Operace = ,  = , , >, < Navíc: intervaly, nula
zvolená
Navíc: nula absolutní
Statistické
charakteris.
Modus, absolutní a
relativní četnosti
Navíc: medián,
kvantily a
kvantilové
odchylky,
procentily
Navíc: arit. Průměr,
směrodat.odchylka,
šikmost, špičatost
Navíc: koeficient
variability, geometr.
průměr
Testy
Významnosti
 2
- test, McNemar
test, Cochran test,...
Znaménkový test,
Mann-Whitney Utest,
Friedmanova
pořadová analýza
variance, aj.
Parametrické metody:
F-test
t-test (pro závislé či
nezávislé soubory)
Parametrické metody:
F-test
t-test (pro závislé či
nezávislé soubory)
Míry závislosti Kontingenční a
čtyřpolní koeficient
Navíc: pořadová
korelace
Navíc: Pearsonova
součinová korelace
Navíc: Pearsonova
součinová korelace
Statistické
metody
Některé
neparametrické
metody
Všechny
neparametrické
metody
Všechny neparametrické a
parametrické metody
Všechny
neparametrické a
parametrické metody
Přehled typů škál (Bruhn, 1986; Roth, 1995)
Inteligenční kvocient (IQ; Stern, 1912)
je index inteligence, který má normální rozložení s
průměrem 100 a standardní odchylkou 15.
POSTUP PŘI URČENÍ TYPU ŠKÁLY: A. výška (cm)
3. Lze stanovit pořadí?
1. Je známa jednotka měření?
2. Je počátek zvolený nebo absolutní?
4. Jedná se jen o pojmenování znaků čísly? Nemá smysl zjišťovat
Nemá smysl zjišťovat
ANO
absolutní
Znaky ?
- Kvantitativní
- Výška = spojitý
Škály metrické
POMĚROVÁ
POSTUP PŘI URČENÍ TYPU ŠKÁLY: B. dějepis (zn)
3. Lze stanovit pořadí?
1. Je známa jednotka měření?
2. Je počátek zvolený nebo absolutní?
4. Jedná se jen o pojmenování znaků čísly? Nemá smysl zjišťovat
ANO
NE
Nemá smysl zjišťovat
Znak?
- Kvantitativní
- Dějepis = spojitý
=> Nemohou být metrické
=> ORDINÁLNÍ
Pozn. Známky jsou spojitými znaky, i když
jsou měřeny pouze na ordinální škále.
Slide 57
Z jakých škál jsou uvedené proměnné?
Studenti sami … potom kontrola!
ŠKÁLA ZNAKZnak
Nominální
(a)
Ordinální
(b)
Intervalová
(c)
Poměrová
(d)
Spojitý
(e)
Diskrétní
(f)
1. Pohlaví
2. Věk
3. Počet
sourozenců
4. Známka
z matematiky
5. Inteligenční
kvocient
6. Hodnocení v
krasobruslení
7. Výkon ve
skoku dalekém
Klasifikujte znaky obsažené v tabulce – správnou odpověď
označte křížkem (X)
Pozn. Známky jsou spojitými znaky, i když jsou měřeny pouze na
ordinální škále.
Řešení: 1. a, f; 2. d, e; 3. d, f; 4. b, e; 5. c, e; 6. d, e; 7. d, e.
Pozn. Známky jsou spojitými znaky, i když jsou měřeny pouze
na ordinální škále.
ŠKÁLA ZNAKZnak
Nominální
(a)
Ordinální
(b)
Intervalová
(c)
Poměrová
(d)
Spojitý
(e)
Diskrétní
(f)
1. Pohlaví
2. Věk
3. Počet
sourozenců
4. Známka
z matematiky
5. Inteligenční
kvocient
6. Hodnocení v
krasobruslení
7. Výkon ve
skoku dalekém
ANALÝZA JEDNOROZMĚRNÉHO SOUBORU
1. URČENÍ TYPU ŠKÁLY (nominální, ordinální, metrické)
a) nominální + ordinální  neparametrické statistické metody
b) metrické  parametrické statistické metody
2. ROZLOŽENÍ ČETNOSTÍ ZNAKŮ (NORMÁLNÍ ČI JINÉ)
a) normální  parametrické statistické metody
b) jiné  neparametrické statistické metody
3. VÝPOČET ZÁKLADNÍCH STATISTICKÝCH CHARAKTERISTIK
a) míry centrální tendence (M, Mo, Me)
b) míry variability (s, …)
c) míry závislosti (r)
METODY DESKRIPTIVNÍ STATISTIKY
2.1 STATISTICKÉ TŘÍDĚNÍ DAT
Výsledkem měření, testování, dotazování jsou
neuspořádaná, neroztříděná a nepřehledná data (tzv.
hrubé skóre).
Tabulka 1: Výsledky testování tenistů U12 (n = 10)
Věk Výška Váha BMI IPR SH RB V PTC RRR RRN SR
11,0 150,0 36,0 16,0 1,7 24,8 15,0 153,9 43 0,52 0,45 0,69
11,0 155,5 46,0 19,0 2,1 26,7 15,9 159,8 40 0,77 0,49 0,58
11,0 151,0 36,4 16,0 2,7 19,5 15,4 161,2 40 0,63 0,41 0,54
11,0 150,0 39,8 17,7 1,9 23,4 14,4 151,7 40 0,56 0,43 0,59
11,0 144,0 35,0 16,9 2,3 23,7 14,6 153,9 35 0,56 0,54 0,68
11,0 143,0 38,6 18,9 1,4 15,2 14,0 155,3 38 0,69 0,43 0,39
11,0 144,0 41,2 19,9 3,3 20,0 16,2 165,7 17 0,66 0,51 0,49
11,0 153,0 37,0 15,8 2,9 20,0 14,8 158,8 41 0,61 0,46 0,54
11,1 155,0 40,0 16,6 1,4 19,3 15,5 142,4 48 0,47 0,37 0,48
11,1 140,0 32,8 16,7 2,8 20,2 15,0 163,2 37 0,56 0,40 0,62
Chceme-li získat přesnější, smysluplnější,
podrobnější informace, je třeba údaje uspořádat:
Hovoříme o statistickém zpracování (třídění) dat.
Nejjednodušším způsobem statistického zpracování
dat je tzv. tabulka rozdělení (rozložení) četností.
(2) spojité statistické znaky s malým počtem výskytu
(např. pro statistické soubory s malým rozsahem).
2.1.1 JEDNOROZMĚRNÉ ROZDĚLENÍ ČETNOSTÍ
JEDNA VLASTNOST (např. tělesná výška)
statistického souboru je charakterizovaná JEDNÍM
STATISTICKÝM ZNAKEM (170 cm) – jedná se tedy o
jednorozměrný statistický soubor.
Konstrukce tabulky - postup vhodný pro:
(1) nespojité kvantitativní statistické znaky
(např. počet dětí v rodině, úspěšné koše),
PŘÍKLAD 1. Při dvakrát opakovaném testování střelby na koš
byly u deseti osob (n=10) zjištěny výsledky uvedené v tabulce
(zaznamenán počet úspěchů z deseti pokusů při 1. resp. 2.
testování).
Tabulka (hrubé skóre)
Hráč A B C D E F G H J K
xi 7 6 7 8 9 8 8 8 9 10
yi 4 8 6 8 7 8 7 4 8 10
Posouzení znaků xi:
 … tabulka jednorozměrného rozdělení četností.
Pro znaky x i sestavte (frekvenční) tabulku rozdělení četností.
kvantitativní, nespojité, poměrová  …
Frekvenční tabulka jednorozměrného rozdělení četností.
Xi Čárkovací
metoda
ni fi Kumulativní
četnost
Ni Fi
6  1 0.1 1 0.1
7   2 0.2 3 0.3
8     4 0.4 7 0.7
9   2 0.2 9 0.9
10  1 0.1 10 1.0
 10 1.0 - -
Vysvětlivky:
n...rozsah souboru xi...hodnota znaku
ni...absolutní četnost fi...relativní četnost (fi = ni /n)
Ni ... absolutní kumulativní četnost
Fi ... relativní kumulativní četnost
Absolutní četnost – vyjadřuje absolutní výskyt jednotlivých
znaků, relativní četnost – vyjádření v procentech.
Kumulativní relativní četnost – vyjadřuje v % (po
vynásobená stem) jaké procento rozsahu souboru má
odpovídající variantu a menší hodnotu dané proměnné.
F i = 0,7 => 70 % hráčů dosáhlo výsledku 8 úspěšných
pokusů a méně.
Xi Čárkovací
metoda
ni fi Kumulativní
četnost
Ni Fi
6  1 0.1 1 0.1
7   2 0.2 3 0.3
8     4 0.4 7 0.7
9   2 0.2 9 0.9
10  1 0.1 10 1.0
 10 1.0 - -
(2) nespojité statistické znaky s velkým počtem výskytů.
2. 1. 2 JEDNOROZMĚRNÉ INTERVALOVÉ (SKUPINOVÉ)
ROZDĚLENÍ ČETNOSTÍ
Konstrukce tabulky jednorozměrného intervalového rozdělení
četností je postup vhodný pro:
(1) spojité kvantitativní
statistické znaky
(např. výsledky měření běhu na
100 m, tělesné výšky, skoku
dalekého),
Je-li n < 30 doporučuje se vytvořit ne více než 6 intervalů.
Je-li 30 < n < 100 doporučuje se vytvořit 7 až 10 intervalů.
DOPORUČENÁ PRAVIDLA
pro konstrukci tabulky jednorozměrného intervalového rozložení četností
URČENÍ ŠÍŘKY A POČTU INTERVALŮ
Variační rozpětí (R) R = x max – x min
Šířka intervalu (h) h = 0,08 x R
Počet intervalů (k) k = n
k  5. log n
k  1 + 3.3 log n
(Sturgesovo pravidlo)
Intervaly musí být vytvořeny tak,
aby jeden statistický znak
nemohl být současně zařazen
do dvou různých intervalů!!!
Intervaly na sebe musejí navazovat!!!
POZOR !
POZOR !
PŘÍKLAD 2. Pro znaky yi sestavte tabulku
skupinového (intervalového) rozdělení četností.
Variační rozpětí (R) R = x max – x min R = 10 - 4 = 6
Šířka intervalu (h) h = 0,08 x R h = 0.08 x 6 = 0,48  1 (pokus)
Hráč A B C D E F G H J K
xi 7 6 7 8 9 8 8 8 9 10
yi 4 8 6 8 7 8 7 4 8 10
Pomocné výpočty pro určení
šířky (h) a počtu intervalů (k)
PŘÍKLAD 2. Pro znaky yi sestavte tabulku
skupinového (intervalového) rozdělení četností.
 Doporučená šířka intervalu: 1
 Doporučený počet intervalů: 3 až 5
Pomocné výpočty pro určení
šířky (h) a počtu intervalů (k)
Počet intervalů (k)
k = n k  5. log n k  1 + 3.3 log n
k = 3.16 k  5 k  4.3 (log 10 = 1)
Třída Interval Střed ni fi Ni Fi
1 4 – 5 4,5 2 0,2 2 0,2
2 6 – 7 6,5 3 0,3 5 0,5
3 8 – 9 8,5 4 0,4 9 0,9
4 10 – 10,5 1 0,1 10 1,0
 - - 10 1,0 - Tabulka
skupinového (intervalového)
rozdělení četností (znak yi).
2. 1. 3 GRAFICKÉ ZNÁZORNĚNÍ ROZDĚLENÍ ČETNOSTÍ
1) HISTOGRAM ČETNOSTÍ
(sloupkový diagram, sloupcový graf)
Histogram … jedna z
nejčastěji užívaných
forem grafického
znázornění rozdělení
četností.
Grafické znázornění = přehlednější a názornější forma
znázornění rozdělení četností.
Histogram je tvořen sloupci
… jejich šířka odpovídá šířce třídního intervalu,
… jejich výška odpovídá absolutní četnosti
sledovaného statistického znaku.
2) (FREKVENČNÍ) POLYGON
Forma grafického znázornění rozdělení četností, kdy
místo sloupců použijeme ke znázornění rozdělení
četností lomenou čáru.
Tato lomená čára je spojnice bodů vytvořených v
průsečících středů intervalů a příslušných četností.
Frekvenční polygon inteligence citově deprivovaných dětí
0
5
10
15
20
25
30
35
66-70
71-75
76-80
81-85
86-90
91-95
96-100
101-105
106-110
111-115
116-120
IQ
f
2) (FREKVENČNÍ) POLYGON
3) (GALTONOVA) OGIVA
Pojem ogival je v architektuře používán pro lomený
oblouk, ve statistice tento pojem charakterizuje
esovitě lomenou křivku znázorňující kumulativní
četnosti (absolutní nebo relativní).
4) VÝSEČOVÝ (SEKTOROVÝ) GRAF
Jedná se o kruhový graf, vyjadřující relativní
četnosti jako charakteristiku struktury daného
souboru (nejčastěji v %).
62%
31%
7%
4) VÝSEČOVÝ (SEKTOROVÝ) GRAF
5) PIKTOGRAM
Piktogram = grafický znak znázorňující pojem nebo
sdělení obrazově (např. dopravní značky), též
piktograf. Vyjadřuje absolutní četnosti bez nároků na
přesnost, má spíše informativní charakter a používá
obrazových symbolů (např. lokomotiva, váček s
penězi, postava vojáka).
Spotřeba energie v městě X v letech
1960 1970 1980 1990 2000
10 MW 22 MW 28 MW 43 MW 52 MW
Třídy Četnost Kumul. %
5 2 20,00%
7 3 50,00%
9 4 90,00%
Další 1 100,00%
Pro znaky y sestavte tabulku skupinového (intervalového)
rozdělení četností.
Histogram
0
1
2
3
4
5
5 7 9 Další
Třídy
Četnost
0,00%
20,00%
40,00%
60,00%
80,00%
100,00%
Četnost
Kumul. %
Histogram četností
20%
30%
40%
10%
5
7
9
Další
Výsečový (sektorový) graf
ZÁKLADNÍ STATISTICKÉ
CHARAKTERISTIKY
PRO DATA ZÍSKANÁ NA ŠKÁLE
NOMINÁLNÍ, ORDINÁLNÍ, METRICKÉ
31.10. konec np
MÍRY VARIABILITY
DATA
NOMINÁLNÍ ORDINÁLNÍ METRICKÁ
MÍRY POLOHY
MODUS MEDIÁN ARITMETICKÝ
PRŮMĚR
Entropie
(uspořádanost)
Kvartilové rozpětí
Kvartilová odchylka
Rozptyl
Standardní odchylka
Variační koeficient
2. 2 MÍRY POLOHY
Míry polohy (neboli míry centrální tendence)
charakterizují úroveň statistického souboru z
hlediska jeho střední hodnoty,
…zevšeobecňují, zastupují, reprezentují jednotlivé
hodnoty sledovaného statistického znaku,
…umožňují srovnání polohy dvou či více rozdělení
četností, resp., srovnání střední úrovně dvou či více
souborů.
Hod na koš (n=10): 6; 7; 7; 8; 8; 8; 8; 9; 9; 10
NEJČASTĚJI POUŽÍVANÉ MÍRY POLOHY
1. NOMINÁLNÍ STUPNICE (DATA)
MODUS (Mo) označuje nejčastěji se vyskytující
hodnotu statistického souboru (hodnota s největší
četností).
Modus je nejsnáze zjistitelná míra polohy.
Soubor může mít jeden či více modů
(soubor bimodální, soubor trimodální).
Modus je použitelný pro nominální stupnice
(a všechny vyšší).
Rozdělení bimodální
0
50
100
150
200
250
0 5 10 15 20 25
hodnota znaku
četnost
MEDIÁN (Me) označuje prostřední člen variační řady
(dělí výsledky seřazené podle velikosti na polovinu).
2. ORDINÁLNÍ STUPNICE (DATA)
Medián není citlivý na velikost krajních hodnot.
Medián je použitelný pro ordinální stupnici (a vyšší).
Ukázka výpočtu pro sudý a lichý počet dat:
xi : 6 7 7 8 8 8 8 9 9 10 (sudý počet)
xi : 6 7 7 8 8 8 8 9 9 10 10 (lichý počet)
Mo = 8 Me = 8
3. METRICKÉ STUPNICE (DATA)
ARITMETICKÝ PRŮMĚR (Mean, M) nejpoužívanější
míra polohy, použitelný (pouze!) pro metrické škály.
Výpočet: součet všech hodnot statistického souboru
dělený rozsahem souboru (n).
a) Aritmetický průměr prostý (jednoduchý)
=
=
+++
=
n
i
i
n
x
nn
xxx
x
1
21 1...
x - statistický znak n - rozsah souboru
x i - hodnota statistického znaku
x
O … takto nikdy !
b) Vážený aritmetický průměr
➢ užívá se u početnějších souborů, výpočet vychází z
rozdělení četností,
➢ vážený se nazývá proto, že jednotlivým hodnotám
znaku je přisuzována váha odpovídající počtu výskytů.


=
=
=
+++
+++
= m
i
i
i
m
i
i
m
mm
w
wx
www
wxwxwx
x
1
1
21
2211
...
...
Wi … váha (počet výskytů)
n … rozsah souboru (počet hodnot).
=
=
m
i
iwn
1
b) Vážený aritmetický průměr – příklad využití
Přijímací řízení FSpS 2015–2017
Výsledky testu běh na 100m
2015 (n = 350) M = 13,0
2016 (n = 230) M = 12,5
2017 (n = 120) M = 12,0


=
=
=
+++
+++
= m
i
i
i
m
i
i
m
mm
w
wx
www
wxwxwx
x
1
1
21
2211
...
...
Jaký je průměrný výkon
v běhu na 100 m v letech
2015–2017?
13,0 x 350 + 12,5 x 230 + 12,0 x 120
= = 12,7
350 + 230 + 120
??? 13,0 + 12,5 + 12,0 =
37,5/3 = 12,5 ???
Poznámky k rozložení četností a měr polohy
• Při (Gaussově) normálním rozložení četností znaků
jsou vypočítané střední hodnoty (aritmetický průměr,
modus, medián) stejně velké.
-4 -3 -2 -1 0 1 2 3 4
-4,0 -3,0 -2,0 -1,0 0 1,0 2,0 3,0 4,0 z - body
směrodatné odchylky
počet případů pod
Gaussovou křivkou
[%]
34,13%
13,59%
34,13%
13,59%
2,14%
2,14%
0,13%0,13%
• Čím více se střední hodnoty liší, tím více je rozložení
asymetrické (nejde o normální rozložení četností).
PŘÍKLAD 3
Výpočet: modus, medián, aritmetický průměr.
Hráč A B C D E F G H J K
xi 7 6 7 8 9 8 8 8 9 10
yi 4 8 6 8 7 8 7 4 8 10
Variační řada znaku xi: 6, 7, 7, 8, 8, 8, 8, 9, 9, 10
Mo = ? Me = ? M = ? Vážený AP = ?
Mo = 8 Me = 8 M = 8 Vážený AP = 8
SAMI: Variační řada znaku yi: 4, 8, 6, 8, 7, 8, 7, 4, 8, 10
Mo = ? Me = ? M = ? Vážený AP = ?
Mo = 8 Me = 7,5 M = 7 Vážený AP = 7
Pomocí Excelu – Statistické funkce
Výpočet: modus, medián, aritmetický průměr.
MODE
MEDIAN
PRŮMĚR
2. 3 MÍRY VARIABILITY
Popis statistického souboru pomocí měr polohy (určení
středních hodnot) není dostačující - viz příklad!
Př. 1: 3,4,5,6,7  25/5=5 (M=5) Př. 2: 1,2,5,8,9  25/5=5 (M=5)
1 10 1 10
MÍRY VARIABILITY
Míry variability charakterizují
✓ vyrovnanost jednotek souboru,
✓ jak jsou hodnoty znaků souboru
rozptýleny, jak se vzájemně odlišují,
✓ do jaké míry je sledovaný soubor
homogenní (stejnorodý) resp. heterogenní
(nestejnorodý, různorodý).
V odborné literatuře jsou také označovány
jako míry variace, rozptýlení, měnlivosti.
Soubor homogenní
Soubor heterogenní
2. 3. 1 KVANTILOVÉ MÍRY VARIABILITY (KMV)
NEJČASTĚJI POUŽÍVANÉ KVM
VARIAČNÍ ŘADA = znaky statistického souboru
seřazené podle velikosti.
VARIAČNÍ ROZPĚTÍ =diference mezi největší a nejmenší
hodnotou znaku statistického souboru tj. R=xmax – xmin
KVANTIL=hodnota kvantitativního statistického znaku,
která rozděluje (láme) variační řadu na jisté části.
KMV jsou využitelné pro stupnice ordinální a dále pro
stupnice metrické v případech, kdy nelze prokázat
normalitu rozložení četností dat (proč ne pro nominální
stupnice?).
Hráč A B C D E F G H J K
xi 7 6 7 8 9 8 8 8 9 10
yi 4 8 6 8 7 8 7 4 8 10
VARIAČNÍ ŘADA znaků xi 
VARIAČNÍ ŘADA znaků y i  4,4,6,7,7,8,8,8,8,10
VARIAČNÍ ROZPĚTÍ R = x max – x min  R = 10–4 = 6
PŘÍKLAD 4 Výpočet: variační řada, variační rozpětí.
Totéž si sami vypočítat v přednášce pro znaky yi
6,7,7,8,8,8,8,9,9,10
R = 10–6 = 4VARIAČNÍ ROZPĚTÍ R = x max – x min 
DRUHY KVANTILŮ (kvartil, decil, percentil)
1. KVARTIL (Y) … kvartily rozdělují variační řadu na
čtvrtiny, na 4 skupiny.
Dolní kvartil (Q1, x25)
KOLIK MÁME KVARTILŮ?
Horní kvartil (Q3, x75)
(Střední kvartil) = medián
VÝPOČET KVARTILU
5,0
100
+

=
pn
zp
zp - pořadí kvantilu xp
n - rozsah souboru p - kvartil
Příklad : Určete dolní kvartil x25 , jestliže
rozsah souboru je n = 40
Výsledek 10,5 znamená, že dolní kvartil x25 je
průměrem desáté a jedenácté hodnoty
variační řady znaků souboru.
5,105,0
100
2540
=+

=pz
2
)11()10(
25
xx
x
+
=
VÝPOČET KVARTILU
5,0
100
+

=
pn
zp
zp - pořadí kvantilu xp
n - rozsah souboru p - kvartil
Příklad (basketbal) :
Určete dolní (horní) kvartil x25 (x75), jestliže rozsah
souboru je n = 10 (6,7,7,8,8,8,8,9,9,10)
Výsledek 3,0 znamená, že dolní kvartil x25 je
třetí (osmá) hodnota variační řady znaků
souboru, tedy x25 = 7 (x75 = 9 )
Z25 = 10 x 25/100 + 0,5 = 2,5 + 0,5 = 3,0
Z75 = 10 x 75/100 + 0,5 = 7,5 + 0,5 = 8,0
2. DECIL
… decily rozdělují variační řadu na
desetiny, tedy na 10 skupin o 10% rozsahu
souboru.
Označují se x10, x20, …x90
3. PERCENTIL (PROCENTIL)
… percentily rozdělují variační řadu na
setiny, na 100 skupin o 1% rozsahu.
Označují se x1, x2, …x99
DALŠÍ KVANTILOVÉ
CHARAKTERISTIKY VARIABILITY
KVANTILOVÉ ROZPĚTÍ
➢ kvartilové rozpětí x 75 – x 25
➢ decilové rozpětí x 90 – x 10
➢ percentilové rozpětí x 99 – x 1
KVANTILOVÉ ODCHYLKY
a) kvartilová odchylka
x 75 – x 25
Q =
2
b) decilová odchylka
x 90 – x 10
D =
8
c) percentilová odchylka
x 99 – x 1
C =
98
Je polovinou rozpětí
krajních hodnot, není
ovlivněna jejich extrémy.
Je osminou rozpětí
krajních decilů, záleží
tedy na rozpětí
prostředních 80% prvků
souboru.
Je devadesáti osminou
rozpětí krajních
percentilů.
Předchozí „kvantilové míry variability“ udávají jen
rozpětí, v němž se znaky pohybují.
2.3.2 MOMENTOVÉ MÍRY VARIABILITY
(1) variaci (rozptýlení) ve smyslu vzájemné odlišnosti
jednotlivých hodnot znaku mezi sebou,
(2) variaci (rozptýlení) ve smyslu odlišnosti jednotlivých
hodnot znaku od průměru.
MOMENTOVÉ MÍRY VARIABILITY umožňují výpočet
číselných charakteristik,
které umožňují zjistit:
NEJČASTĚJI POUŽÍVANÉ MOMENTOVÉ MÍRY
VARIABILITY
M … aritmetický průměr
x i …hodnota znaku
Rozptyl (s2) je aritmetickým průměrem ze čtverců
odchylek jednotlivých hodnot znaku od jejich
aritmetického průměru (nepožadováno).
Rozptyl „měří“ variaci ve smyslu odlišnosti
jednotlivých hodnot znaku od průměru i ve smyslu
vzájemné odlišnosti jednotlivých hodnot znaku.
(pro rozsáhlé soubory)
 ( x i - M) 2
s2 =
n
1. ROZPTYL
2. SMĚRODATNÁ (STANDARDNÍ) ODCHYLKA (s)
Symbolický tvar
s =  s2 (var x)
Směrodatná odchylka (s)
… je kvadratickým průměrem odchylek jednotlivých
hodnot znaku od aritmetického průměru (nepožadováno).
 ( x i - M ) 2
s = 
n
1
)( 2
2
−
−
==

n
xx
ss i
(pro rozsáhlé soubory)
M … aritmetický průměr
x i …hodnota znaku
3. VARIAČNÍ KOEFICIENT (Coefficient of variation, CV)
s
VK =
|M|
s
VK (%) = 100 x
|M|
➢ umožňuje provést srovnání variability dvou či více
souborů, jejichž znaky jsou měřeny v různých
jednotkách (cm, kg, sekundy, viz následující slide 111),
➢ udává poměr směrodatné odchylky k aritmetickému
průměru, přesněji řečeno udává, kolik %
aritmetického průměru tvoří směrodatná odchylka.
(s = směrodatná odchylka; M = aritmetický průměr)
PŘÍKLAD 5
Výpočet: rozptyl, směrodatná odchylka, variační koeficient
Hráč A B C D E F G H J K
xi 7 6 7 8 9 8 8 8 9 10
yi 4 8 6 8 7 8 7 4 8 10
(7-8)2+(6-8)2+(7-8)2……(8-8)2+(9-8)2+(10-8)2
s2 =
10
1+4+1+0+1+0+0+0+1+4 12
= = = 1,20
10 10
(1) Rozptyl M = 8
(2) Směrodatná odchylka s =  s2 = 1,09 = 1,1
s 1,09 s
VK1 = = = 0,14 resp. VK1= x 100 = 14 %
M 8 M
(3) Variační koeficient VK1
VK2 = 0,26 resp. VK2 = 26 %  VK1  VK2
Sami doma - variační koeficient VK2 tj. znaků y i …
Sami doma – směrodatná odchylka znaků y i …
Interpretace …
Pomocí Excelu – Statistické funkce
Výpočet: rozptyl, směrodatná odchylka, variační koeficient
VAR.VÝBĚR
vypočte rozptyl výběru
SMODCH.VÝBĚR
vypočte směrodatnou
odchylku výběru
VAR
SMODCH
yi
Stř. hodnota 7
Chyba stř. hodnoty 0,596285
Medián 7,5
Modus 8
Směr. odchylka 1,885618
Rozptyl výběru 3,555556
Špičatost -0,05776
Šikmost -0,49718
Rozdíl max-min 6
Minimum 4
Maximum 10
Součet 70
Počet 10
Největší (1) 10
Nejmenší (1) 4
Hladina spolehlivosti (95,0%) 1,34889
Pomocí Excelu – Analýza dat – Popisná statistika
Tabulka 1: Základní statistické charakteristiky
souboru tenistek U10 (n = 65)
Proměnné M SD Min Max VK (%)
Věk 10,20 0,60 9,0 10,9 5,88
Výška (cm) 145,30 7,50 130,0 165,0 5,16
Hmotnost (kg) 36,76 6,10 25,8 53,0 16,59
Síla stisku (P) 18,90 4,82 11,0 36,6 25,50
Síla stisku (L) 16,70 5,03 9,1 39,2 30,12
Vysvětlivky: n = počet prvků souboru; M = aritmetický průměr;
SD = směrodatná odchylka; Min = minimální hodnota; Max =
maximální hodnota; VK = variační koeficient (%); P/L =
pravá/levá ruka
STATISTICKÁ ANALÝZA DAT
Základní statistické charakteristiky
Vysvětlit VK (%)
ANALÝZA JEDNOROZMĚRNÉHO SOUBORU
1. URČENÍ TYPU ŠKÁLY (nominální, ordinální, metrické)
a) nominální + ordinální  neparametrické stat. metody
b) metrické  parametrické statistické metody
2. ROZLOŽENÍ ČETNOSTÍ ZNAKŮ (NORMÁLNÍ ČI JINÉ)
a) normální  parametrické statistické metody
b) jiné  neparametrické statistické metody
3. VÝPOČET ZÁKLADNÍCH STATISTICKÝCH CHARAKTERISTIK
a) míry centrální tendence
b) míry variability
c) míry závislosti 14.11. zde konec
METODY DESKRIPTIVNÍ STATISTIKY
2.5 MÍRY ZÁVISLOSTI
2.5.1 ZÁVISLOST PEVNÁ, VOLNÁ, STATISTICKÁ A KORELAČNÍ
Statistické soubory jsou charakterizovány jednotlivými
statistickými znaky (délka skoku, čas v běhu, výška, hmotnost
Souvislost mezi znaky:
➢ rozběhová rychlost x délka skoku
➢úspěšnost střelby 1. a 2. pokus,
➢ tělesná výška x hmotnost,…
2.5.1 ZÁVISLOST PEVNÁ, VOLNÁ, STATISTICKÁ A
KORELAČNÍ
Míry závislosti se zabývají hledáním, zkoumáním a
hodnocením souvislostí (závislostí, vztahů) mezi dvěma
(či více) statistickými znaky.
Závislosti znaků, věcí a jevů
mohou být velmi rozmanité:
• nepodstatné (náhodné)
• příčinné (kauzální) závislosti jsou výrazem určité
vnitřní nutnosti (příčina vyvolává následek)
Příčinná (kauzální) závislost je závislost, kdy daný
jev či několik jevů (příčina) nutně vyvolává za
určitých podmínek jiný jev (následek, účinek).
Nejjednodušší formy kauzálních závislostí se
vyskytují u přírodních jevů např. ….
… při zahřívání tělesa za konstantních podmínek
(elementární příčina) dochází ke zvětšování jeho objemu
(elementární účinek) => tj. princip teploměru.
1. PEVNÁ ZÁVISLOST
Pevná závislost = případ, kdy výskytu jednoho jevu
NUTNĚ ODPOVÍDÁ výskyt druhého jevu.
Tedy jedné hodnotě jedné proměnné odpovídá jen jedna
hodnota jiné proměnné (funkční závislost).
Např. Zahříváme-li těleso 5 min,
vzroste teplota o 10 º C.
Zahříváme-li těleso 10 min,
vzroste teplota o 20 º C, atd.
… (vědy o sportu?)
PEVNÁ ZÁVISLOST
Pevná závislost – charakteristika:
➢ se opakuje ve všech jednotlivých případech (při
dodržení standardních podmínek).
➢ může být tedy charakterizována jediným
pozorováním (větší počet pozorování slouží k ověření
výsledků a vyloučení chyb).
➢ setkáváme se s ní při formulování zákonitostí
vztahů mezi proměnnými
(např. fyzikální zákony = Archimedův zákon).
Volná závislost (statistická závislost) = výskyt
jednoho jevu OVLIVŇUJE výskyt druhého jevu (NE
nutně odpovídá). Každé hodnotě jedné proměnné (TV)
odpovídají různé hodnoty jiné proměnné (TH).
VOLNÁ ZÁVISLOST
➢ Při zkoumání společenských jevů se většinou
nesetkáváme s pevnou závislostí ale s volnou, kdy
určitá příčina vede k různým účinkům.
Např. skok daleký: rychlost x délka skoku (volná z.)
Volnou závislost lze tedy zkoumat pouze na základě
mnoha pozorování, malý počet pozorování může
přinést naprosto nahodilý výsledek vliv náhodných a
vedlejších činitelů.
2.5.2 KORELAČNÍ POČET
(regresní a korelační analýza)
Metody regresní a korelační analýzy slouží k
poznání a matematickému popisu statistických
závislostí; jsou souhrnně označované jako
korelační počet.
Hlavní úkoly korelačního počtu:
1. postižení povahy korelační závislosti (regresní
analýza),
2. měření těsnosti korelační závislosti (korelační
analýza).
1. postižení povahy (regresní analýza),
2. měření těsnosti (korelační analýza).
1. postižení povahy korelační závislosti umožňuje
odhady neznámých hodnot závisle proměnné y při
známých hodnotách nezávisle proměnné x hovoříme
o regresi.
Povaha korelační závislosti je vyjadřována
matematickou funkcí - hovoříme o regresní funkci
(regresní analýza).
HLAVNÍ ÚKOLY KORELAČNÍHO POČTU
2. měření těsnosti korelační závislosti umožňuje
posuzovat míru korelační závislosti - hovoříme o
vlastní korelaci (korelační analýza).
Korelace je vyjadřována tzv. korelačním
koeficientem r.
1. REGRESNÍ ANALÝZA (LINEÁRNÍ)
Regresní analýza umožňuje postihnout povahu závislosti
pomocí regresní funkce nejlépe vyjadřující zkoumané
závislosti (je vyjádřena regresní rovnicí).
Regresní funkce může nabývat mnoha typů:
➢přímková (lineární), např. hyperbolická,
logaritmická, parabolická
➢křivková (nelineární), např. exponenciální,
mocninná a další …
Úkol: POSTIŽENÍ POVAHY KORELAČNÍ ZÁVISLOSTI
LINEÁRNÍ REGRESNÍ FUNKCE je vyjádřena
regresní rovnicí y = a + b . x
Pro konstrukci regresní funkce pro konkrétní závislost
(např. tělesná výšky a hmotnost) je třeba určit regresní
koeficienty a, b.
Vycházíme z empirických (měřených) znaků TV a TH).
Vzorce pro výpočet regresních koeficientů a, b:
n  x i y i -  xi  y i  y i - b xi
b = ------------------------- a = ----------------------
n  xi
2
- (  xi ) 2
n
y = závisle proměnná x = nezávisle proměnná
a, b = regresní koeficienty
2. KORELAČNÍ ANALÝZA (LINEÁRNÍ)
Pojem korelace pochází z latiny (co – relation =
souvztažnost), obvykle ji označujeme symbolem „ r “.
Korelace je definována jako volná kvantitativní
závislost dvou či více jevů.
Korelace vyjadřuje míru (stupeň) závislosti a je
charakterizována korelačním koeficientem r, který
„měří“ těsnost závislosti popsané regresní funkcí.
Úkol: MĚŘENÍ TĚSNOSTI KORELAČNÍ ZÁVISLOSTI
VZORCE PRO VÝPOČET KORELAČNÍHO KOEFICIENTU
Symbolická podoba vzorce korelačního koeficientu
sx,y cov (X, Y)
r = ---------- = --------------------
sx . sy  var X .var Y
kovariance
součin obou
směrodatných odchylek
Korelace je matematicky
podíl kovariance a součinu obou směrodatných odchylek.
Pro metrická data (normalita)
PEARSONŮV KOEFICIENT SOUČINOVÉ KORELACE
(vzorec)
 ( x i - x ).( y i - y )
r = ------------------------------------
  ( x i - x )2  ( y i - y )2
Pearsonův koeficient - výpočtový tvar
n  x i y i -  x i  y i
r = ---------------------------------------------------
  n  x i
2
- (  x i ) 2
 n  y i
2
- ( y i) 2

PEARSONŮV KORELAČNÍ KOEFICIENT (r)
Podmínkou výpočtu je ověření
dvourozměného normálního rozdělení
Pro ordinální data
SPEARMANŮV KOEFICIENT POŘADOVÉ KORELACE
(není požadováno normální rozložení četností)
6 .  ( i x - i y ) 2
6
rxy = 1 - --------------------- = 1 - -------------  d i
2
n (n2
- 1) n (n2
- 1)
VLASTNOSTI KORELACE
1. VELIKOST KORELACE
Korelační koeficient r nabývá hodnot z intervalu <-1 ; 1>
Význam hodnot -1, 0, 1
r = 0  lineární nezávislost proměnných
r = 1  úplná (funkční) pozitivní lineární závislost
r = -1  úplná (funkční) negativní lineární závislost
Čím více se r blíží hodnotě 1, tím je závislost silnější
Čím více se r blíží hodnotě 0, tím je závislost slabší
2. SMĚR KORELACE
a) kladná (pozitivní) <0;1>
b) záporná (negativní) <-1;0>
3. TVAR KORELACE
a) lineární (lze dosti dobře proložit přímku)
b) nelineární (nelze proložit přímku)
POZNÁMKY KE KORELACÍM
1. Matematicko-statistické předpoklady výpočtu
korelačního koeficientu:
a) linearita (korelačním polem lze dosti dobře
proložit přímku),
b) normalita (dvojrozměrné normální rozložení četností)
1. Matematicko-statistické předpoklady výpočtu
korelačního koeficientu:
c) dostatečný rozsah souboru (n=200, n=100, n=30)
1. Matematicko-statistické předpoklady výpočtu korelačního
koeficientu:
2. Věcný a formální smysl znaménka korelačního
koeficientu
Např. vypočítaná korelační závislost
výsledků studentů FSpS (n=185)
v běhu na 100m …
… a ve skoku dalekém je
r = − 0,80 <-1 ; 1>
Co to znamená z hlediska
interpretace?
a) kladná (pozitivní) <0;1> b) záporná (negativní) <-1;0>
To by ovšem znamenalo, že kdo je lepší v běhu na 100 m,
ten je horších výsledků ve skoku dalekém.
To je ovšem……odborně i věcně NESMYSL!
PROČ ???
PROTOŽE …
…jakou „hodnotu“ má výsledek v běhu na 100 m
10,7 s versus 12,3 s?
…jakou „hodnotu“ má výsledek ve skoku dalekém
570 cm versus 430 cm?
3. Koeficient determinace r 2
… určuje jaká část rozptylu výkonu v jednom testu je
dána proměnlivostí (variabilitou) výkonů v druhém
testu.
Koeficient determinace r 2 = 0, 64 (64 %).
Např. výše uvedená korelační závislost výsledků
studentů FTK (n=185) v běhu na 100m a ve skoku
dalekém r = 0,8 znamená, že…
Tedy 64 % rozptylu výkonu ve skoku dalekém je
ovlivněno (determinováno) proměnlivostí (variabilitou)
výkonů v běhu na 100m.
REGRESNÍ ANALÝZA (1. úkol korelačního počtu)
PŘÍKLAD 7. Výpočet - koeficientů regresní přímky
Regresní přímka Y = a + b . X
REGRESNÍ ANALÝZA (1. úkol korelačního počtu)
PŘÍKLAD 7. Výpočet - koeficientů regresní přímky
Hráč A B C D E F G H J K
xi 7 6 7 8 9 8 8 8 9 10
yi 4 8 6 8 7 8 7 4 8 10
Regresní přímka Y = a + b . x
POMOCNÁ TABULKA
Hráč X i Y i X i
2 Y i
2 X i . Y i
REGRESNÍ ANALÝZA (1. úkol korelačního počtu)
PŘÍKLAD 7. Výpočet - koeficientů regresní přímky
Hráč X i Y i X i
2 Y i
2 X i . Y i
A 7 4 49 16 28
B 6 8 36 64 48
POMOCNÁ TABULKA
C 7 6 49 36 42
D 8 8 64 64 64
E 9 7 81 49 63
F 8 8 64 64 64
G 8 7 64 49 56
H 8 4 64 16 32
J 9 8 81 64 72
K 10 10 100 100 100
 80 70 652 522 569
Y = a + b . x = 1 + 0,75 . x
Pořadí osob X i Y i X i
2 Y i
2 X i . Y i
 80 70 652 522 569
Statistické charakteristiky: APx = 8 APy = 7 s x= 1,1 s y= 1,8
Konstrukce regresní přímky za pomocí regresní rovnice
X 8 10Volba x 
Y 7 8,5Výpočet y 
Y = a + b . x = 1 + 0,75 . x
Pozn. x…nezávisle proměnná y…závisle proměnná
Y1 = 1 + 0,75 . 8 = 7 Y2 = 1 + 0,75 . 10 = 8,5
2) X = a + b . Y SAMI !!!
Z 1 (8; 7) Z 2 (10; 8,5)
Pozn. y…nezávisle proměnná x…závisle proměnná
Pořadí osob X i Y i X i
2 Y i
2 X i . Y i
 80 70 652 522 569
Statistické charakteristiky: APx = 8 APy = 7 s x= 1,1 s y= 1,8
Regresní přímka X = a + b . y
n  x i y i -  x i  y i  x i – b .  y i
b = ------------------------------- a = ----------------------
n  y i
2
- (  y i ) 2
n
X = a + b . y = 6 + 0,28 . y
10. 569 – 80.70 5690 - 5600 90
b = ------------------------- = ----------------------- = -------- = 0,28
10.522 - (70)2
5220 - 4900 320
80 – 0,28.70 60,4
a = ------------------------ = ---------- = 6
10 10
Graf korelační závislosti (= korelogram) - konstrukce
y (x)
10 
9
8     
7 
6 

5
4  
6 7 8 9 10 x (y)


A 7 4
B 6 8
C 7 6
D 8 8
E 9 7
F 8 8
G 8 7
H 8 4
J 9 8
K 10 10
x i y i
Z 1
Z 2
Pomocí Excelu – Statistické funkce
Výpočet koeficientů regresní přímky
2) X = a + b . Y
1) Y = a + b . X
INTERCEPT
odhad parametru a
SLOPE
odhad parametru b
Pomocí Excelu – Statistické funkce
Výpočet koeficientů regresní přímky
1) Y = a + b . X
Y = 1 + 0,75 . X
2) X = a + b . Y
X = 6 + 0,28 . Y
Pomocí Excelu – Analýza dat – Regrese
Výpočet koeficientů regresní přímky
1) Y = a + b . X
Y = 1 + 0,75 . X
Pomocí Excelu – Analýza dat – Regrese
Výpočet koeficientů regresní přímky
VÝSLEDEK
Regresní statistika
Násobné R 0,459279327
Hodnota spolehlivosti R 0,2109375
Nastavená hodnota spolehlivosti R 0,112304688
Chyba stř. hodnoty 1,7765838
Pozorování 10
ANOVA
Rozdíl SS MS F Významnost F
Regrese 1 6,75 6,75 2,138613861 0,181775314
Rezidua 8 25,25 3,15625
Celkem 9 32
Koeficienty Chyba stř. hodnoty t Stat Hodnota P Dolní 95% Horní 95%
Hranice 1 4,141130079 0,241479978 0,815257536 -8,549463079 10,54946308
xi 0,75 0,512855568 1,462400035 0,181775314 -0,432647059 1,932647059
korelační koeficient
koeficient determinace
Významnost F < α = 0,05 →
model je statisticky vhodný
a
b
Pomocí Excelu – Analýza dat – Regrese
Výpočet koeficientů regresní přímky
2) X = a + b . Y
X = 6 + 0,28 . Y
Pomocí Excelu – Analýza dat – Regrese
Výpočet koeficientů regresní přímky
VÝSLEDEK
Regresní statistika
Násobné R 0,459279327
Hodnota spolehlivosti R 0,2109375
Nastavená hodnota spolehlivosti R 0,112304688
Chyba stř. hodnoty 1,087930949
Pozorování 10
ANOVA
Rozdíl SS MS F Významnost F
Regrese 1 2,53125 2,53125 2,138613861 0,181775314
Rezidua 8 9,46875 1,18359375
Celkem 9 12
Koeficienty Chyba stř. hodnoty t Stat Hodnota P Dolní 95% Horní 95%
Hranice 6,03125 1,389509735 4,340559729 0,002476521 2,827034807 9,235465193
yi 0,28125 0,192320838 1,462400035 0,181775314 -0,162242647 0,724742647
koeficient determinace
korelační koeficient
Významnost F < α = 0,05 →
model je statisticky vhodný
a
b
KORELAČNÍ ANALÝZA (2. úkol korelačního počtu)
PŘÍKLAD 7. Výpočet (Pearsonova) korelačního koeficientu
Výpočtový tvar
Pořadí osob X i Y i X i
2 Y i
2 X i . Y i
 80 70 652 522 569
n  x i y i -  x i  y i
rx,y = ---------------------------------------------------
  n  x i
2
- (  x i ) 2
 n  y i
2
- ( y i) 2

10. 569 – 80.70
r = -------------------------------------------- = 0,46
 (10. 652 – 6400) . (10. 522 – 4900)
Pomocí Excelu – Statistické funkce
Výpočet (Pearsonova) korelačního koeficientu
CORREL
výpočet korelačního
koeficientu
r = 0,459
Jak „těsná“ je korelační závislost r = 0,46?
Vzhledem k intervalu <0;1> resp. <-1;0> se jedná o
střední míru závislosti (asociace).
1. Korelační závislost (r = 0,46) platí pouze pro
konkrétní soubor (výběr) s konkrétními osobami,
nelze tedy považovat tento vztah za obecně platný!
2. Chceme-li zobecnit platnost vypočítané
závislosti „r“ na základní soubor (populaci),
musíme ověřit (testovat) hypotézu o statistické
významnosti korelačního koeficientu.
POSOUZENÍ A INTERPRETACE KORELAČNÍ ZÁVISLOSTI
np 12.4.2022
3. Při testování hypotézy a statistické významnosti
„r“ (resp. jeho odlišnost od nuly), zjišťujeme, zda je
tento výběrový korelační koeficient statisticky
významný (s ohledem na rozsah souboru)
4. Zamítnutí (či nezamítnutí) nulové hypotézy
provádíme s určitou pravděpodobností na tzv.
hladině významnosti (p, resp. α)
Obvykle volíme p = 0,05, resp. p = 0,01)
POSOUZENÍ A INTERPRETACE KORELAČNÍ ZÁVISLOSTI
PRO NÁŠ PŘÍKLAD, kdy r = 0,46; n = 10
…zjistíme v tabulce kritických hodnot koeficientu
součinové korelace, …
Počet dvojic Kritické hodnoty
(na =0,05, =0,01)
n =0,05 =0,01
9 0,666 0,798
10 0,632 0,765
11 0,602 0,735
30 0,361 0,463
Tabulka kritických hodnot
… že „náš“ korelační koeficient r = 0,46 je pro obě hladiny
významnosti menší, než tzv. kritická hodnota, je tedy
STATISTICKY NEVÝZNAMNÝ.
Závěr: mezi výsledky 1. a 2. pokusů nebyla zjištěna závislost,
nelze tvrdit, že… CO? Interpretace! Ale pro n=30?
Test1 Test2
8 7
5 5
4 4
6 4
7 5
6 4
5 5
7 6
Příklad. Výpočet (Pearsonova) korelačního koeficientu
Testujte hypotézu, zda výběrový
korelační koeficient je statisticky
významný (s ohledem na rozsah
souboru).
Pořadí osob X i Y i X i
2 Y i
2 X i . Y i
 48 40 300 208 247
Příklad. Výpočet (Pearsonova) korelačního koeficientu
n  x i y i -  x i  y i
rx,y = ---------------------------------------------------
  n  x i
2
- (  x i ) 2
 n  y i
2
- ( y i) 2

8. 247 – 48.40 56
r = -------------------------------------------- = ----------- = 0,71
 (8. 300 – 2304) . (8. 208 – 1600) 78
r = 0,71 > 0,7067 pro α = 0,05
Na hladině α = 0,05 zamítáme
nulovou hypotézu. Koeficient je
statisticky významný.
SPEARMANŮV KOEFICIENT POŘADOVÉ KORELACE
Spearmanův koeficient pořadové korelace se používá pro
výpočet těsnosti závislosti:
❑ u znaků získaných na ordinální stupnici
(ordinálních znaků)
Vzorec pro výpočet Spearmanova koeficientu pořadové
korelace:
❑ u souborů o nevelkém rozsahu (n menší než 20)
❑ jestliže znaky nemají (či nelze prokázat) normální
rozložení četností
6 .  ( i x - i y ) 2
rxy = 1 - ---------------------
n (n2
- 1)
kde i x resp. i y je
index pořadí znaků
x resp. y
Příklad. Výpočet Spearmanova koeficientu pořadové korelace
Pořadí x i y i i x i y ( i x - i y ) 2
1 7 2,5. 4 1.5 2,5 1,5 1
2 6 1. 8 7,5. 1 7,5 42,25
3 7 2,5. 6 3 2,5 3 0,25
4 8 8 7,5. 5,5 7,5 4
5 9 7 4,5. 8,5 4,5 16
6 8 8 7,5. 5,5 7,5 4
7 8 7 4,5. 5,5 4,5 1
8 8 4 1.5 5,5 1,5 16
9 9 8 7,5. 8,5 7,5 1
10 10 10. 10 10. 10 10 0
 - - - - 85,5
6 .  ( i x - i y ) 2
6 . 85,5 513
r = 1 - -------------------- = 1 - -------------- = 1 - ---------- = 0,48
n (n2
- 1) 10 (100 - 1) 990
r = 0,48
Spearmanův koeficient pořadové korelace
Pearsonův koeficient součinové korelace
r = 0,46
POSOUZENÍ A INTERPRETACE ZÁVISLOSTI
…viz Pearsonův koeficient součinové korelace
Příklad. Výpočet Spearmanova koeficientu pořadové korelace
6 .  ( i x - i y ) 2
6 . 8 48
r = 1 - -------------------- = 1 - -------------- = 1 - ---------- = 0,95
n (n2
- 1) 10 (100 - 1) 990
Kritické hodnoty z tabulek α = 0,05 ……………. 0,6364
α = 0,01…………….. 0,7818
Hypotézu H0 : ρ= 0 o nezávislosti zamítáme
ANALÝZA JEDNOROZMĚRNÉHO SOUBORU
1. URČENÍ TYPU ŠKÁLY (nominální, ordinální, metrické)
a) nominální + ordinální  neparametrické stat. metody
b) metrické  parametrické statistické metody
2. ROZLOŽENÍ ČETNOSTÍ ZNAKŮ (NORMÁLNÍ ČI JINÉ)
a) normální  parametrické statistické metody
b) jiné  neparametrické statistické metody
3. VÝPOČET ZÁKLADNÍCH STATISTICKÝCH CHARAKTERISTIK
a) míry centrální tendence
b) míry variability
c) míry závislosti
METODY DESKRIPTIVNÍ STATISTIKY
3. ANALYTICKÁ STATISTIKA
3.1 Základní soubor, výběrový soubor, náhodný
výběr, závislé a nezávislé soubory
3.2 Hypotézy (stručné opakování)
3.3 Věcná a statistická významnost
3.4 Testování statistických hypotéz
Z Á K L A D Y S T A T I S T I K Y
Přednášku prezentovat ze samostatného souboru!
Statistika 2
(MATEMATICKÁ) STATISTIKA
DESKRIPTIVNÍ
(popisná)
ANALYTICKÁ
(inferentní, induktivní)
DESKRIPTIVNÍ STATISTIKA
(zpracováním a popis dat).
ANALYTICKÁ STATISTIKA
(analyzovat a vyhodnocení dat)
(1) stanovit, zda výsledky testů dvou tréninkových
skupin vykazují významný rozdíl mezi středními
hodnotami ( vliv tréninkové metody),
(2) vyhodnotit léčebný účinek u 2 souborů pacientů.
3.1 ZÁKLADNÍ SOUBOR
(generální soubor, population, Grundgesamtkeit) je
soubor všech jedinců, u kterých bychom teoreticky
měli šetření provádět.
Základní soubor obvykle není dostupný, musíme se proto
spokojit s omezeným počtem jedinců (objektů), takovýto
soubor potom nazýváme výběrovým souborem
(náhodný výběr, sample, Stichprobe).
VÝBĚROVÝ SOUBOR je náhodnou podmnožinou
prvků základního souboru, je získaný náhodným,
resp. záměrným výběrem.
Z poznatků zjištěných u výběrového souboru, můžeme
(při splnění určitých statistických požadavků) činit
závěry platné pro základní soubor.
ZÁVISLÉ SOUBORY
(test hod na koš, družstvo A 1., 2. pokusy)
NEZÁVISLÉ SOUBORY
(test hod na koš, družstvo A, družstvo B)
3.2 HYPOTÉZA
je podmíněný výrok o vztahu mezi dvěma nebo více
proměnnými (Kerlinger, 1972).
Hypotézy jsou důležité a nepostradatelné prostředky
vědeckého výzkumu, jsou pracovními nástroji teorie.
Kritéria dobrých hypotéz
1. hypotézy jsou výroky o vztazích mezi proměnnými
2. hypotézy obsahují jasné implikace (např. jestliže
…, pak …) pro ověřování předpokládaných vztahů.
Hypotéza formuluje jajo předpokládaný vztah mezi
proměnnými, který se zamítá nebo nelze zamítnout.
Druhy hypotéz (Röthig, 1992)
1. Pracovní hypotéza - subjektivní domněnky o
předmětu výzkumného problému.
Pracovní hypotéza je formulována všeobecně,
je základem pro realizaci předvýzkumu.
2. Výzkumná (věcná) hypotéza – zdůvodněný
předpoklad o existenci vztahu mezi dvěma či více
proměnnými.
Zpřesněná formulace, ověřujeme testováním
statistických hypotéz.
3. Statistická hypotéza - hypotetické tvrzení
vyjádřené ve statistických termínech o relacích,
vyvozených z předpokládaných vztahů ve věcné H.
Stupeň obecnosti ověřovaného tvrzení (hypotézy)
klesá (od pracovní H −> ke statistické H).
Stupeň přesnosti ověřovaného tvrzení (hypotézy)
vzrůstá (od pracovní H −> ke statistické H).
H0: µ = µ0 HA: µ ≠ µ0 ; HA: µ > µ0 ; HA: µ < µ0
Hypotéza je testována pomocí tzv. testovacích metod
(testů) a zamítá se, je-li zjištěn výsledek, který je při
platnosti nulové hypotézy nepravděpodobný.
Co je považováno za nepravděpodobný výsledek, má
být stanoveno předem (např. tělesná výška mužů a
žen je stejná).
Výsledky testování hypotéz jsou posuzovány na tzv.
hladině významnosti (p, α), která vyjadřuje
pravděpodobnost chyby I. druhu (tedy chybné
zamítnutí testované hypotézy).
Úroveň hladiny významnosti p = 0,05 znamená, že
nulová hypotéza se zamítá, když je pravděpodobnost
platnosti nulové hypotézy menší než 5% (p < 0,05)
(obdobná interpretace platí pro p = 0,01).
HYPOTÉZA NULOVÁ
Základním typem úvahy při statistickém testování
tzv. nulová hypotéza (HO). Př. Tělesná výška x věk
Podstatou nulové hypotézy je odůvodněný
předpoklad, že mezi dvěma jevy není statisticky
významný rozdíl (rozdíl je nulový, resp. malý).
Jako nulová hypotéza se označuje domněnka, že dva
statistické soubory se shodují v určitých
statistických parametrech (např. M, r).
H0: µ = µ0 HA: µ ≠ µ0 ; HA: µ > µ0 ; HA: µ < µ0
HYPOTÉZA ALTERNATIVNÍ
Předpokládáme-li, že mezi dvěma jevy existuje
významný rozdíl, formulujeme tzv. alternativní
hypotézu HA (oboustranná, resp. jednostranná).
K rozhodnutí, zda hypotézu (nulovou či alternativní)
zamítáme, či nezamítáme používáme tzv. testovací
metody (viz dále).
Co je považováno za výsledek pravděpodobný
(TV M ≠ Ž, H1), resp. nepravděpodobný (TV M = Ž, H0)
musí být tedy stanoveno předem.
H0: µ = µ0 HA: µ ≠ µ0 ; HA: µ > µ0 ; HA: µ < µ0
3.3 VĚCNÁ A STATISTICKÁ VÝZNAMNOST
(1) STATISTICKÁ VÝZNAMNOST
Smysluplné použití posuzování výsledků výzkumu
pomocí statistické významnosti je omezeno jen na
soubory pořízené metodami náhodného výběru, resp. u
randomizovaných experimentů (často nerespektováno).
Hlavní nevýhoda testování H pomocí statistické
významnosti je její vazba na rozsah souboru (n):
- u velkých výběrů jsou i nepatrné rozdíly, resp.
asociace (korelace) statisticky významné,
- u malých výběrů jsou i velké rozdíly či velká asociace
(korelace) statisticky nevýznamné.
Výsledky testování hypotéz jsou posuzovány na tzv. hladině
významnosti. Interpretace hladiny významnosti α = 0,05 znamená,
že nulová hypotéza se zamítá s 5% pravděpodobností omylu.
VĚCNÁ A STATISTICKÁ VÝZNAMNOST
(2) VĚCNÁ VÝZNAMNOST
U nenáhodných výběrů se doporučuje posuzovat
významnost rozdílů či vztahů pomocí věcné
významnosti („size of effect“, „effect size“, „velikost/síla
efektu“, např. pomocí ES indexů (Cohen, 1988).
Hlavní výhoda použití teorie věcné významnosti je
malá závislost na rozsahu souboru (n).
http://www.socscistatistics.com/effectsize/Default3.aspx
https://www.statskingdom.com/index.html
https://stats.libretexts.org/Learning_Objects/02%3A_Interactive
_Statistics
Test Effect size
small medium large
d .20 .50 .80
r .10 .30 .50
Chi2 .10 .30 .50
(1) Cohen (1988, 1992). Indexy velikosti efektu
(hodnoty pro malé, střední a velké efekty).
POSUZOVÁNÍ VĚCNÉ VÝZNAMNOSTI
Vysvětlivky:
d = pro diference středních hodnot
R = pro korelace
Chi2 = pro chí kvadrát
(2) Soukup (2013). Effect size po úpravě do intervalů
POSUZOVÁNÍ VĚCNÉ VÝZNAMNOSTI
Test small medium large
d 0,2-0, 49 0,5-0,79 ≥ 0,8
r 0,1-0,29 0,3-0,49 ≥ 0,5
Chi2 0,1-0,29 0,3-0,49 ≥ 0,5
3.3.1 TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ
VĚCNÁ VÝZNAMNOST
Postup při hodnocení výsledků výzkumu:
(pouze a jen, jde-li o randomizovaný výzkum)
1. Nejprve provedeme výpočet statistické významnosti,
jakožto kritérium pro posouzení rizika zobecnění.
2. Následně zhodnotit věcnou významnost (ES) jak
absolutně (v jednotkách měření), tak i relativně k podílu
vlivu ostatních faktorů.
Formulace: nulová hypotéza (H0)
Příklad 1
H0: intersexuální rozdíly somatických a
motorických předpokladů mezi tenisty (n=221) a
tenistkami (n=193) ve věkové kategorii 11 -12 let
jsou nevýznamné.
Soubor/SC
H
Tenisté Tenistky Cohen´s d,
hodnocení
efektu
M SD M SD
Výška (cm) 155,10 7,62 154,60 6,94 0,07 (žádný)
Hmotnost
(kg)
43,50 6,68 43,49 7,17 0,00 (žádný)
MS (kp) 25,14 4,60 23,08 4,61 0,45 (malý)
RS 0,58 0,09 0,53 0,09 0,56
(střední)
Formulace: alternativní hypotéza (HA, H1)
Příklad 2
HA: intersexuální rozdíly somatických a
motorických předpokladů mezi tenisty (n=157) a
tenistkami (n=163) ve věkové kategorii 13 -14 let
jsou významné.
Category M (male) SD M (female) SD Cohen´s d
Height
(cm)
169.79 9.27 164.93 5.80 0.63 (med)
Weight
(kg)
57.05 9.26 53.57 6.31 0.44
(small)
MHSL (kp) 34.64 7.53 29.09 3.84 0.94
(large)
RHSL 0.61 0.10 0.55 0.06 0.73 (med)
VĚCNÁ VÝZNAMNOST – LITERATURA
Blahuš, P. (2000). Statistická významnost proti vědecké
průkaznosti výsledků výzkumu. Česká kinantropologie,
4(2), 53-72.
Cohen, J. (1992). A Power Primer. Psychological Bulletin,
1(112), 155-159. doi:10.1037/0033-2909.112.1.155
Soukup (2013). Věcná významnost výsledků a její
možnosti měření. Data a výzkum - SDA Info, 7(2), 125-
148.
http://dx.doi.org/10.13060/23362391.2013.127.2.41
Soukup, P. (2010). Nesprávná užívání statistické
významnosti a jejich možná řešení. Data a výzkum - SDA
Info, 4(2), 77-104.
http://dav.soc.cas.cz/uploads/27e65d18f9df9bee6df1af
9649f82b267f9cccda_DaV10_2_s77_104.pdf
✓ Výsledky TESTOVÁNÍ HYPOTÉZ jsou posuzovány
na zvolené hladině významnosti (p/α = 0,05; 0,01)
✓ Úroveň hladiny významnosti α = 0,05 znamená, že
nulová hypotéza se zamítá, když α < 0,05 (0,01).
✓ V tomto případě se přikláníme k platnosti
alternativní hypotézy.
✓ Nejčastěji testujeme hypotézy o významnosti
✓ (1) diferencí středních hodnot dvou výběrových
souborů (rozsahu n1, n2), resp.
✓ (2) závislosti dvou či více proměnných.
3.3.2 TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ
STATISTICKÁ VÝZNAMNOST
STATISTICKÁ „KUCHAŘKA“
pro soubory závislé/nezávislé a data
1. nominální
2. ordinální
3. metrická (kardinální)
TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ
STATISTICKÉ TESTOVACÍ METODY
1. NOMINÁLNÍ DATA - STATISTICKÉ TESTOVACÍ METODY
PŘEDPOKLAD PROBLÉM TESTOVACÍ
METODA
Dva nezávislé
soubory (znaky
nabývají právě
dvou hodnot)
Zkouška
významnosti rozdílů
souborů
X2
-čtyřpolní test
(Fischerův test,
čtyřpolní tabulka)
Dva nezávislé
soubory (znaky
nabývají více
hodnot)
Zkouška
významnosti rozdílů
souborů
X2
-vícepolní test
(kontingenční
tabulka)
Dva závislé
soubory (znaky
nabývají právě
dvou hodnot)
Zkouška
významnosti změn
X2
-Mc Nemarův
test
Dva závislé
soubory
Hodnocení
závislosti
Koef. kontingence
C
1. Lyžaři
2. Lyžaři
Znak - kouření
2. ORDINÁLNÍ DATA - STATISTICKÉ TESTOVACÍ METODY
PŘEDPOKLAD PROBLÉM TESTOVACÍ METODA
Dva nezávislé
soubory
Test rovnosti
centrálních
tendencí
Medianový test
(jednoduchý), U-test
Mann-Whitneyho,
Kolmogorov-Smirnovův
test, Marshallův test
Dva závislé
soubory
Test rovnosti
centrálních
tendencí
Znaménkový test,
Wilcoxonův test
Více nezávislých
souborů
Test rovnosti
centrálních
tendencí
Medianový test
(rozšířený), H-test
Kruskal-Wallisův (analýza
rozptylu)
Dva závislé
soubory
Hodnocení míry
závislosti
Spearmanův resp.
Kendallův koeficient
korelace
Více závislých
souborů
Hodnocení míry
závislosti
Friedmanova analýza
rozptylu
1. Tenisté A
2. Tenisté B
Znak – pořadí
3. METRICKÁ DATA - STATISTICKÉ TESTOVACÍ METODY I
PŘEDPOKLAD PROBLÉM TESTOVACÍ
METODA
Dva nezávislé
soubory
Zkouška rovnosti
rozptylů
(homogenita)
F-test
Dva nezávislé
soubory
Zkouška rovnosti
středních hodnot
t-test
Dva nezávislé
soubory
Zkouška
nezávislosti
korelací
Korelační test
Dva závislé
soubory
Zkouška rovnosti
rozptylů
(homogenita)
F-test
Tenisté
Tenistky
Znak: TV
3. METRICKÁ DATA - STATISTICKÉ TESTOVACÍ METODY II
PŘEDPOKLAD PROBLÉM TESTOVACÍ
METODA
Dva závislé
soubory
Zkouška rovnosti
středních hodnot
Diferenční t-test
(párový)
Dva závislé
soubory
Hodnocení
závislosti
Koef. součinové
korelace a regrese
Více nezávislých
souborů
Zkouška rovnosti
průměrů
Analýza rozptylu,
Duncanův test
pořadí, Bartlettův
test
Více nezávislých
souborů
Zkouška rovnosti
korelačních
koeficientů
Test homogenity
Tenisté
Tenistky
Znak:
TV
ROZHODOVACÍ DIAGRAM PRO UŽITÍ t-TESTU
DVA NÁHODNÉ VÝBĚRY
NEZÁVISLÉ ZÁVISLÉ
t-test pro t-test pro
nezávislé výběry závislé výběry
F-test
homogenní heterogenní
rozptyl rozptyl
s12 = s22 s12  s22
t-test pro t-test pro
homogenní heterogenní
rozptyl rozptyl
STATISTICKÉ TESTOVACÍ METODY
Párový t - test
- dva závislé soubory
- zkouška rovnosti středních hodnot
PŘÍKLAD – Zjistěte, zda se na automobilu určité značky sjíždějí
obě přední pneumatiky stejně rychle
číslo automobilu 1 2 3 4 5 6
pravá pneumatika 1,8 1 2,2 0,9 1,5 1,6
leva pneumatika 1,5 1,1 2 1,1 1,4 1,4
rozdíl 0,3 -0,1 0,2 -0,2 0,1 0,2
H0 : μ = μ1 – μ2 = 0 HA : μ = μ1 – μ2 ≠ 0

−
=
−−
2
1;1


n
tTn
s
X
T hypotézu nelze
zamítnou
STATISTICKÉ TESTOVACÍ METODY
Párový t - test
číslo automobilu 1 2 3 4 5 6
pravá pneumatika 1,8 1 2,2 0,9 1,5 1,6
leva pneumatika 1,5 1,1 2 1,1 1,4 1,4
rozdíl 0,3 -0,1 0,2 -0,2 0,1 0,2
( )
( ) ( ) ( )
1941,00377,0
0377,0
5
18833,0
5
1167,00167,02833,01167,01833,02167,0
1
1
0833,0
6
5,0
2,01,02,02,01,03,0
6
11
2
1
222222
22
1
===
==
=
++−++−+
=−
−
=
==++−+−==


=
=
ss
XX
n
s
X
n
X
n
i
i
n
n
i
571,20518,16
1941,0
00833,0
571,2975,0;5
2
05,0
1;16
2
1;1
=
−
=
−
=
===
−−−−
n
s
X
T
ttt
n


STATISTICKÉ TESTOVACÍ METODY
Párový t - test
Protože 1,0518 < 2,571, nelze na základě získaných dat zamítnout
hypotézu, že se obě přední pneumatiky sjíždějí stejně rychle.
= > z tabulek
STATISTICKÉ TESTOVACÍ METODY
Párový t - test
Pomocí Excelu – Analýza dat – Dvouvýběrový párový t-test
na střední hodnotu
Dvouvýběrový párový t-test na střední hodnotu
pravá pneumatika leva pneumatika
Stř. hodnota 1,5 1,416666667
Rozptyl 0,24 0,109666667
Pozorování 6 6
Pears. korelace 0,961571662
Hyp. rozdíl stř. hodnot 0
Rozdíl 5
t Stat 1,051757905
P(T<=t) (1) 0,17053101
t krit (1) 2,015048372
P(T<=t) (2) 0,34106202
t krit (2) 2,570581835
STATISTICKÉ TESTOVACÍ METODY
Dvouvýběrový t - test
- dva nezávislé soubory
- test rovnosti středních hodnot
PŘÍKLAD – U studentů rozdělených do dvou skupin byl zaznamenán
počet leh-sedů za 1 minutu. Jsou obě skupiny stejně výkonné?
H0 : μ1 = μ2
HA : μ1 ≠ μ2
( ) ( )
( )

+
−+
−+−
−
=
−−+
2
1;2
22
2
11

mn
YX
tT
mn
mnnm
smsn
YX
T
hypotézu nelze
zamítnou
1. skupina 62 54 55 60 53 58
2. skupina 52 56 49 50 51
STATISTICKÉ TESTOVACÍ METODY
Dvouvýběrový t - test
1. skupina 62 54 55 60 53 58
2. skupina 52 56 49 50 51
n1=6 n2=5 APX=57 APY=51,6 sX
2 =12,8 sY
2 =7,3
( ) ( )
( )
( ) ( )
( )
79,255,24
2,295,62
4,5
56
256.5.6
3,7158,1216
6,5157
2
11 22
=
+
=
=
+
−+
−+−
−
=
=
+
−+
−+−
−
=
mn
mnnm
smsn
YX
T
YX
262,279,2
262,2975,0;9
2
05,0
1;256
2
1;2
=
===
−−+−−+
T
ttt
mm

STATISTICKÉ TESTOVACÍ METODY
Dvouvýběrový t -test
Protože 2,79 ≥ 2,262 zamítáme hypotézu, že se obě skupiny studentů
jsou stejně výkonné.
= > z tabulek
STATISTICKÉ TESTOVACÍ METODY
Dvouvýběrový t - test
Pomocí Excelu – Analýza dat – Dvouvýběrový t-test s
rovností rozptylů
Dvouvýběrový t-test s rovností rozptylů
1. skupina 2. skupina
Stř. hodnota 57 51,6
Rozptyl 12,8 7,3
Pozorování 6 5
Společný rozptyl 10,35555556
Hyp. rozdíl stř. hodnot 0
Rozdíl 9
t Stat 2,77122216
P(T<=t) (1) 0,010855041
t krit (1) 1,833112923
P(T<=t) (2) 0,021710083
t krit (2) 2,262157158
STATISTICKÉ TESTOVACÍ METODY
F - test
- dva nezávislé soubory
- zkouška rovnosti rozptylů
PŘÍKLAD – Na základě dat uvedených v předchozím příkladě
rozhodněte, zda oba základní soubory mají stejné rozptyly.
H0 : σX
2 = σY
2
HA : σX
2 ≠ σY
2

=
−−−
2
1;1,1
2
2
1,

mn
Y
X
FZ
Zabytakvolím
s
s
Z
hypotézu nelze
zamítnou
1. skupina 62 54 55 60 53 58
2. skupina 52 56 49 50 51
STATISTICKÉ TESTOVACÍ METODY
F - test
1. skupina 62 54 55 60 53 58
2. skupina 52 56 49 50 51
n=6 m=5 sX
2 =12,8 sY
2 =7,3
753,1
3,7
8,12
2
2
===
Y
X
s
s
Z
36,9753,1
36,9975,0;4,5
2
05,0
1;15,16
2
1;1,1
=
===
−−−−−−
Z
FFF
mn

Protože 1,753 < 9,36 nelze zamítnout hypotézu o shodnosti rozptylů.
= > z tabulek
STATISTICKÉ TESTOVACÍ METODY
F - test
Pomocí Excelu – Analýza dat – Dvouvýběrový F-test pro rozptyl
Dvouvýběrový F-test pro rozptyl
1. skupina 2. skupina
Stř. hodnota 57 51.6
Rozptyl 12.8 7.3
Pozorování 6 5
Rozdíl 5 4
F 1.753424658
P(F<=f) (1) 0.303172533
F krit (1) 6.256056502
Děkuji
za pozornost