Míry centrální tendence můžeme popsat jako tendenci hodnot proměnných shlukovat se kolem centrální hodnoty. Známe tři způsoby, kterými můžeme popsat centrální hodnoty a jsou jimi (aritmetický) průměr, medián nebo modus. Pokud se uvažuje celá populace, používá se termín populační průměr/medián/mód. Pokud se analyzuje vzorek (tj. podsoubor populace), používá se termín výběrový průměr/medián/mód.
- Modus je hodnota proměnné s největší četností, předpokládá se tedy, že proměnná nabývá různých hodnot znaku (min. 2 - jinak modus nemá význam). Její použití je možné u všech typů proměnných, nejčastěji je však používán u nominálních proměnných, kde zjišťujeme četnost výskytu dané kategorie. Většinou se jedná o nejvyšší sloupec v histogramu. Pokud máme v souboru více módů, je třeba uvažovat nad (ne)homogenitou souboru.
- Medián je hodnota, která dělí řadu vzestupně seřazených výsledků na dvě stejné poloviny. Znamená to, že 50 % hodnot je větších nebo rovných mediánu a 50 % hodnot je menších nebo rovných mediánu. U souboru se sudým počtem prvků označujeme za medián aritmetický průměr hodnot na dvou místech kolem středu. Využívá se pro ordinální a intervalové proměnné. Medián má tu výhodu, že není ovlivněn odlehlými hodnotami (viz kapitola o Kontrole outlierů).
- (Aritmetický) průměr je hodnota, která v jistém smyslu vyjadřuje typickou hodnotu popisující danou proměnnou. Její výpočet je součtem všech hodnot, kterých proměnná nabývá, vydělených počtem prvků (participantů ve vzorku). Její použití je vhodné především u přibližně normálního rozdělení (více informací např. zde) a intervalových proměnných. Může být ovlivněn extrémními hodnotami (viz kapitola o Kontrole outlierů).
Už víme, že volba
centrální tendence, tedy to, zda zvolím modus, medián nebo průměr, závisí od
typu proměnné, tj. nominální, ordinální nebo intervalová. V příkladu se
podíváme na centrální tendence u několika různých proměnných. Zajímá nás, kolik
máme kluků a holek v celém datovém soboru. Budeme proto pracovat
s modem u proměnné sex (nominální proměnná). Do okna Variables
(Proměnné) přesuneme proměnnou sex. V nabídce Statistics
(Statistiky) v sekci Central tendency (Centrální tendence)
zaškrtneme možnost Mode (Modus) a v nabídce roletky Tables
(Tabulky) zaškrtneme možnost Frequency tables (Frekvenční tabulky).

V první
tabulce s názvem Descriptive statistics (Popisné statistiky)
vidíme, že jako modus je označena hodnota 2. Když víme, že kluci jsou
v našem datovém souboru označeni hodnotou 1 a holky hodnotou 2, můžeme
z toho vyvodit, že máme v data setu více holek. Z této tabulky
však nepoznáme, kolik jsme nasbírali kluků a holek z celkového počtu 301
žáků. Z tohoto důvodu jsme zaškrtli možnost zobrazit Frekvenční tabulky (Frequency
tables). Druhá tabulka nám rozdělí datový soubor dle proměnné sex.
Z této tabulky četností vyčteme, že ve výběrovém vzorku máme 146 kluků
(48,5%) a 155 holek (51,5%).
Podobný postup
můžeme aplikovat například i na výsledky dotazníkových dat, kdy chceme zjistit
participanty nejčastěji označenou odpověď na konkrétní otázku. Dalším dobrým příkladem
je využití frekvenčních tabulek a modu pro zjištění četnosti jednotlivých
známek, které žáci získali z písemky.
Dále se zkusíme
podívat jaký je medián a průměr námi vytvořené proměnné age. Ze
seznamu proměnných v levém okně přesuneme do okna Variables
požadovanou proměnnou age. V rozbalovací roletce Statistics
(Statistiky) zaklikneme v sekci centrální tendence (Central tendency)
všechny tři kolonky Median a Mean.

Z tabulky
popisných statistiky (Descriptive statistics) vidíme, že průměrný věk (Mean)
žáků v našem vzorku je 161,34 měsíců a mediánový věk (Median) je
159 měsíců. Tyto hodnoty můžeme přepočíst na roky (vydělíme 12 měsíci) a
srovnat. Průměrný věk dítěte nám vychází přibližně na 13,5 roku a mediánový věk
13,25 roku. Tyto hodnoty se moc neliší a průměr (tedy typická hodnota) je
podobná hodnotě, která je přesně v půlce našeho vzorku.
Z těchto
výsledků tak můžeme vyvodit, že naše data jsou symetrická (hodnoty jsou
rozloženy tak, že existuje rovnováha mezi hodnotami na obou stranách mediánu),
že v data setu nemáme outliery a že data mají normální rozložení (viz
histogram v kapitole Popisné grafy – vizualizace dat). Ne vždy jsou však
medián a průměr ve shodě. Krásným příkladem je rozdíl mezi mediánovou (34 741
Kč)a průměrnou (41
265 Kč) mzdou v ČR, kde
rozdíl mezi oběma hodnotami činí rozdíl 6 524 Kč (ČSÚ: Průměrné mzdy - 1.
čtvrtletí 2023, 2023).