STATISTIKA A PRAVDĚPODOBNOST
OJ205


statistický soubor
•Statistický soubor je posloupnost údajů o nějakých objektech.
•Typy těchto údajů nazýváme statistické znaky.
•Jejich počet pak určuje rozměr statistického souboru.
•Základní soubor (též populace) uvažuje všechny objekty daného typu.
•Statistický soubor je omezený výběr objektů ze základního souboru.
•

jednorozměrný statistický soubor
•Rozsah statistického souboru je počet jeho prvků.
•
•Absolutní četnost hodnoty (někdy též pouze četnost) v souboru je počet jejích výskytů.
•
•Relativní četnost je absolutní četnost podělená rozsahem souboru a udává se obvykle v procentech.
•
•Kumulativní četnost hodnoty je četnost hodnoty souboru plus četnost všech menších hodnot.
Rozeznáváme opět absolutní a relativní kumulativní četnost.
•
•
•

charakteristiky
•Pro jednorozměrný statistický soubor zavádíme tzv. charakteristiky polohy a charakteristiky
variability.
•
•Charakteristiky polohy shrnují potenciálně velké množství dat do několika málo čísel, které lze
snadno interpretovat a vytvořit si tak hrubý úsudek o celém vzorku dat.
•
•Charakteristiky variability ukazují, jak je statistický soubor vnitřně konzistentní, čili jak moc
se od sebe vzájemně liší hodnoty obsažené v souboru.

charakteristiky polohy
•Modus: je hodnota či třída s největší četností.
•
•Aritmetický průměr (značený avg) je součet hodnot ve statistickém souboru, podělený velikostí
souboru.
•
•Medián je „prostřední” hodnota v souboru po jeho setřídění. V případě, že datový soubor má sudý
počet prvků, je to průměr ze dvou prostředních.
•

charakteristiky variability
rozptyl.png


dvourozměrný statistický soubor
•Dvourozměrný statistický soubor lze chápat jako dva jednorozměrné soubory, vzájemně provázané.
Formálně jej můžeme reprezentovat jako posloupnost uspořádaných dvojic, ((𝑥1, 𝑦1), (𝑥2, 𝑦2), ...,
(𝑥𝑛, 𝑦𝑛)).
•
•Důležitou vlastností dvourozměrného statistického souboru je korelace statistických znaků. Pojmem
korelace rozumíme stupeň lineární závislosti znaků 𝑥 a 𝑦, tedy to, do jaké míry hodnoty znaku 𝑥
lineárně závisí na hodnotách znaku 𝑦.
•(Jinými slovy, to, jak dobře lze grafem závislosti 𝑥 na 𝑦 proložit přímku.)

korelace znaků
•Formální zápis – (𝑠(𝑥), 𝑠(𝑦) jsou směrodatné odchylky jednorozměrných datových souborů pro znaky
𝑥 a 𝑦):
•
•
korelace.png

korelace znaků
•Hodnoty korelace se pohybují od -1 do 1.
•Pokud je korelace 0, jsou hodnoty znaků dokonale nezávislé.
•Pokud je korelace 1, jedná se o přímou úměrnost
•(čím větší je 𝑥, tím větší je 𝑦 a hodnoty 𝑦 lze z hodnot 𝑥 získat jednoduše vynásobením nějakou
kladnou konstantou).
•Pokud je korelace -1, jedná se o nepřímou úměrnost (čím větší je 𝑥, tím menší je 𝑦 a hodnoty 𝑦 lze
z hodnot 𝑥 získat jednoduše vynásobením nějakou zápornou konstantou).

pravděpodobnostní rozložení
•Náhodná proměnná, 𝐴 je vlastnost, jejíž hodnotu neznáme, protože o ní nemáme dost informací nebo
protože dosud žádné hodnoty nenabyla.
•
•Většinou máme nějaké informace o dané vlastnosti, které nám mohou vyloučit nebo téměř vyloučit
některé hodnoty, například minulá pozorování.
•
•
•
•

pravděpodobnostní rozdělení
•Pravděpodobnostní rozdělení (pravděpodobnostní rozložení, pravděpodobnostní distribuce) jevu či
vlastnosti 𝐴, je funkce, která pro jednotlivé možné hodnoty ukazuje pravděpodobnost, s jakou
vlastnost 𝐴 nabude této hodnoty.
•
•Formálně se jedná o funkci
• 𝑝 : 𝑋 → [0, 1]
•kde 𝑋 je množina možných hodnot příslušné vlastnosti a
•[0, 1] je uzavřený interval od nuly do jedné, tedy
• ∀𝑥 ∈ 𝑋(𝑝(𝑥) ≤ 1 ∧ 𝑝(𝑥) ≥ 0).
•

pravděpodobnostní rozdělení
•Musí platit, že součet hodnot funkce pro všechny možné hodnoty je 1, tedy
•
•𝑥∈𝑋
•𝑝(𝑥) = 1
•
•Zároveň platí:
•
•𝑝(𝑥) = 𝑃(𝐴 = 𝑥)
•
•(Hodnota pravděpodobnostního rozložení (malé 𝑝) je rovna pravděpodobnosti (velké 𝑃, tedy obecná
pravděpodobnost), s jakou vlastnost 𝐴 nabude hodnoty 𝑥. Dvojice (𝑋, 𝑝), tedy množina všech možných
hodnot vlastnosti spolu s pravděpodobnostním rozložením, se nazývá pravděpodobnostní prostor.)
pravroz.png

určení pravděpodobnostního rozložení
•První možnost: použití nějaké „ideální” funkce, které vychází z našich předpokladů o dané
vlastnosti. (například hod kostkou)
•
•Druhá možnost: určovat pravděpodobnostní rozložení na základě měření provedeného v minulosti,
které bylo zachyceno ve statistickém souboru. (například pravděpodobnostní rozložení slov,
sousloví, slovních druhů v jazyku)
•

uniformní pravděpodobnostní rozložení
•Uniformní rozložení je takové, v němž všechny hodnoty mají přibližně stejnou pravděpodobnost.
Grafem jsou tedy body uspořádané přibližně do přímky vodorovné s osou 𝑥.
•
•Příkladem může být pravděpodobnostní rozložení výsledků hodu vyváženou kostkou.
•

normální pravděpodobnostní rozložení
•Normální rozložení se vyznačuje tím, že nejpravděpodobnější hodnoty jsou blízké průměru a s větší
odchylkou od průměru pravděpodobnost klesá.
•Graf takového rozložení má tvar zvonu, např.:
•
norm.png

Zipfovo pravděpodobnostní rozložení
•Zipfovo rozložení: několik málo nejčastějších hodnot má velkou pravděpodobnost, s každou další
hodnotou (setřídění od nejčastější) tato pravděpodobnost prudce klesá.
•
zipf.png

Zipfův zákon
•Zipfovo rozložení výstižně popisuje velké množství jevů, proto se někdy označuje jako „Zipfův
zákon”.
•Zejména v přirozeném jazyce tento zákon platí téměř všude: téměř vždy je frekvence (nebo
ekvivalentně – pravděpodobnost výskytu) zhruba nepřímo úměrná pořadí podle této frekvence; to platí
pro slova, dvojice slov, slovní druhy, syntaktické vztahy, sémantické kategorie a mnohá další.
•Frekvence nejčastějších slovních tvarů v angličtině: „the” má relativní četnost 7 %, druhé „of” má
3,5 % a více než polovina anglických korpusů je pokryta 135 nejčastějšími slovy (stoplist)

distribuční funkce
•Pravděpodobnostní rozložení je pravděpodobnost, že náhodná veličina nabude určité hodnoty (resp.
zda patří do dané třídy), čili   𝑝(𝑥) = 𝑃(𝐴 = 𝑥), a její hodnoty odpovídají relativním četnostem ve
statistickém souboru.
•
•Distribuční funkce (cumulative distribution function) 𝐹, je pravděpodobnost, že náhodná veličina
nabude určité hodnoty nebo menší, čili 𝐹(𝑥) = 𝑃(𝐴 ≤ 𝑥).
•Její hodnoty odpovídají kumulativním relativním četnostem ve statistickém souboru. Hodnoty
distribuční funkce jsou také dobře známé jako tzv. percentil. Hodnota distribuční funkce
(percentil) mediánu statistického souboru je 0,5.

náhodný vektor
•Náhodný vektor je posloupnost náhodných veličin (počasí). Jeho pravděpodobnostní rozložení můžeme
modelovat s využitím vícerozměrného statistického souboru.
•Pro dvourozměrný náhodný vektor (𝐴,𝐵) je hodnota pravděpodobnostního rozložení
                  𝑝(𝑥, 𝑦) = 𝑃(𝐴 = 𝑥 ∧ 𝐵 = 𝑦).
•Lze definovat i distribuční funkci pro náhodný vektor, např. pro dvourozměrný náhodný vektor je
distribuční funkce analogicky definována jako 𝐹(𝑥, 𝑦) = 𝑃(𝐴 ≤ 𝑥 ∧ 𝐵 ≤ 𝑦).
•

podmíněná pravděpodobnost
•Podmíněná pravděpodobnost je motivována potřebou formalizovat to, že často máme kromě
pravděpodobnostního rozložení daného jevu další informace o jiném jevu, který s původním může, ale
nemusí souviset.
•Podmíněnou pravděpodobnost zapisujeme                              𝑃(𝐴|𝐵)
• a čteme „pravděpodobnost jevu 𝐴 za předpokladu,
• že nastal jev 𝐵”.
•Podmíněnou pravděpodobnost lze vypočítat:
•   𝑃(𝐴|𝐵) = 𝑃(𝐴,𝐵) |𝑃(𝐵)
•   kde 𝑃(𝐴,𝐵) je pravděpodobnost, že jevy 𝐴 a 𝐵
•   nastaly současně.

nezávislé jevy
•Skrze podmíněnou pravděpodobnost definujeme i tzv. nezávislé jevy. Intuitivně platí, že pokud jsou
jevy nezávislé, pak by nám informace o jednom z nich neměla dát žádnou informaci o druhém z nich.
Jevy 𝐴 a 𝐵 jsou nezávislé, pokud
• 𝑃(𝐴|𝐵) = 𝑃(𝐴) ∧ 𝑃(𝐵|𝐴) = 𝑃(𝐵)
•  čili jsou nezávislé, pokud to, jestli nastal jev 𝐵,
•  nijak neovlivní pravděpodobnost jevu 𝐴 a naopak.
•
•Jen a pouze pro nezávislé jevy pak platí vzorec, který se snadno odvodí z nezávislosti jevů a z
definice podmíněné pravděpodobnosti:
• 𝑃(𝐴,𝐵) = 𝑃(𝐴) * 𝑃(𝐵)

•