Seminární cvičení

Míry centrální tendence

Míry centrální tendence můžeme popsat jako tendenci hodnot proměnných shlukovat se kolem centrální hodnoty. Známe tři způsoby, kterými můžeme popsat centrální hodnoty a jsou jimi (aritmetický) průměr, medián nebo modus. Pokud se uvažuje celá populace, používá se termín populační průměr/medián/mód. Pokud se analyzuje vzorek (tj. podsoubor populace), používá se termín výběrový průměr/medián/mód.

  • Modus je hodnota proměnné s největší četností, předpokládá se tedy, že proměnná nabývá různých hodnot znaku (min. 2 - jinak modus nemá význam). Její použití je možné u všech typů proměnných, nejčastěji je však používán u nominálních proměnných, kde zjišťujeme četnost výskytu dané kategorie. Většinou se jedná o nejvyšší sloupec v histogramu. Pokud máme v souboru více módů, je třeba uvažovat nad (ne)homogenitou souboru.  
  • Medián je hodnota, která dělí řadu vzestupně seřazených výsledků na dvě stejné poloviny. Znamená to, že 50 % hodnot je větších nebo rovných mediánu a 50 % hodnot je menších nebo rovných mediánu. U souboru se sudým počtem prvků označujeme za medián aritmetický průměr hodnot na dvou místech kolem středu. Využívá se pro ordinální a intervalové proměnné. Medián má tu výhodu, že není ovlivněn odlehlými hodnotami (viz kapitola o Kontrole outlierů).
  • (Aritmetický) průměr je hodnota, která v jistém smyslu vyjadřuje typickou hodnotu popisující danou proměnnou. Její výpočet je součtem všech hodnot, kterých proměnná nabývá, vydělených počtem prvků (participantů ve vzorku). Její použití je vhodné především u přibližně normálního rozdělení (více informací např. zde) a intervalových proměnných. Může být ovlivněn extrémními hodnotami (viz kapitola o Kontrole outlierů).

Vyzkoušejte si


Už víme, že volba centrální tendence, tedy to, zda zvolím modus, medián nebo průměr, závisí od typu proměnné, tj. nominální, ordinální nebo intervalová. V příkladu se podíváme na centrální tendence u několika různých proměnných. Zajímá nás, kolik máme kluků a holek v celém datovém soboru. Budeme proto pracovat s modem u proměnné sex (nominální proměnná). Do okna Variables (Proměnné) přesuneme proměnnou sex. V nabídce Statistics (Statistiky) v sekci Central tendency (Centrální tendence) zaškrtneme možnost Mode (Modus) a v nabídce roletky Tables (Tabulky) zaškrtneme možnost Frequency tables (Frekvenční tabulky). 


V první tabulce s názvem Descriptive statistics (Popisné statistiky) vidíme, že jako modus je označena hodnota 2. Když víme, že kluci jsou v našem datovém souboru označeni hodnotou 1 a holky hodnotou 2, můžeme z toho vyvodit, že máme v data setu více holek. Z této tabulky však nepoznáme, kolik jsme nasbírali kluků a holek z celkového počtu 301 žáků. Z tohoto důvodu jsme zaškrtli možnost zobrazit Frekvenční tabulky (Frequency tables). Druhá tabulka nám rozdělí datový soubor dle proměnné sex. Z této tabulky četností vyčteme, že ve výběrovém vzorku máme 146 kluků (48,5%) a 155 holek (51,5%).

Podobný postup můžeme aplikovat například i na výsledky dotazníkových dat, kdy chceme zjistit participanty nejčastěji označenou odpověď na konkrétní otázku. Dalším dobrým příkladem je využití frekvenčních tabulek a modu pro zjištění četnosti jednotlivých známek, které žáci získali z písemky.

Dále se zkusíme podívat jaký je medián a průměr námi vytvořené proměnné age. Ze seznamu proměnných v levém okně přesuneme do okna Variables požadovanou proměnnou age. V rozbalovací roletce Statistics (Statistiky) zaklikneme v sekci centrální tendence (Central tendency) všechny tři kolonky Median a Mean


Z tabulky popisných statistiky (Descriptive statistics) vidíme, že průměrný věk (Mean) žáků v našem vzorku je 161,34 měsíců a mediánový věk (Median) je 159 měsíců. Tyto hodnoty můžeme přepočíst na roky (vydělíme 12 měsíci) a srovnat. Průměrný věk dítěte nám vychází přibližně na 13,5 roku a mediánový věk 13,25 roku. Tyto hodnoty se moc neliší a průměr (tedy typická hodnota) je podobná hodnotě, která je přesně v půlce našeho vzorku.

Z těchto výsledků tak můžeme vyvodit, že naše data jsou symetrická (hodnoty jsou rozloženy tak, že existuje rovnováha mezi hodnotami na obou stranách mediánu), že v data setu nemáme outliery a že data mají normální rozložení (viz histogram v kapitole Popisné grafy – vizualizace dat). Ne vždy jsou však medián a průměr ve shodě. Krásným příkladem je rozdíl mezi mediánovou (34 741 Kč)a průměrnou (41 265 Kč) mzdou v ČR, kde rozdíl mezi oběma hodnotami činí rozdíl 6 524 Kč (ČSÚ: Průměrné mzdy - 1. čtvrtletí 2023, 2023).