STATISTIKA A PRAVDĚPODOBNOST statistický soubor •Statistický soubor je posloupnost údajů o nějakých objektech. •Typy těchto údajů nazýváme statistické znaky. •Jejich počet pak určuje rozměr statistického souboru. •Základní soubor (též populace) uvažuje všechny objekty daného typu. •Statistický soubor je omezený výběr objektů ze základního souboru. • jednorozměrný statistický soubor •Rozsah statistického souboru je počet jeho prvků. • •Absolutní četnost hodnoty (někdy též pouze četnost) v souboru je počet jejích výskytů. • •Relativní četnost je absolutní četnost podělená rozsahem souboru a udává se obvykle v procentech. • •Kumulativní četnost hodnoty je četnost hodnoty souboru plus četnost všech menších hodnot. Rozeznáváme opět absolutní a relativní kumulativní četnost. • • • charakteristiky •Pro jednorozměrný statistický soubor zavádíme tzv. charakteristiky polohy a charakteristiky variability. • •Charakteristiky polohy shrnují potenciálně velké množství dat do několika málo čísel, které lze snadno interpretovat a vytvořit si tak hrubý úsudek o celém vzorku dat. • •Charakteristiky variability ukazují, jak je statistický soubor vnitřně konzistentní, čili jak moc se od sebe vzájemně liší hodnoty obsažené v souboru. charakteristiky polohy •Modus: je hodnota či třída s největší četností. • •Aritmetický průměr (značený avg) je součet hodnot ve statistickém souboru, podělený velikostí souboru. • •Medián je „prostřední” hodnota v souboru po jeho setřídění. V případě, že datový soubor má sudý počet prvků, je to průměr ze dvou prostředních. • charakteristiky variability rozptyl.png dvourozměrný statistický soubor •Dvourozměrný statistický soubor lze chápat jako dva jednorozměrné soubory, vzájemně provázané. Formálně jej můžeme reprezentovat jako posloupnost uspořádaných dvojic, ((𝑥1, 𝑦1), (𝑥2, 𝑦2), ..., (𝑥𝑛, 𝑦𝑛)). • •Důležitou vlastností dvourozměrného statistického souboru je korelace statistických znaků. Pojmem korelace rozumíme stupeň lineární závislosti znaků 𝑥 a 𝑦, tedy to, do jaké míry hodnoty znaku 𝑥 lineárně závisí na hodnotách znaku 𝑦. •(Jinými slovy, to, jak dobře lze grafem závislosti 𝑥 na 𝑦 proložit přímku.) korelace znaků •Formální zápis – (𝑠(𝑥), 𝑠(𝑦) jsou směrodatné odchylky jednorozměrných datových souborů pro znaky 𝑥 a 𝑦): • • korelace.png korelace znaků •Hodnoty korelace se pohybují od -1 do 1. •Pokud je korelace 0, jsou hodnoty znaků dokonale nezávislé. •Pokud je korelace 1, jedná se o přímou úměrnost •(čím větší je 𝑥, tím větší je 𝑦 a hodnoty 𝑦 lze z hodnot 𝑥 získat jednoduše vynásobením nějakou kladnou konstantou). •Pokud je korelace -1, jedná se o nepřímou úměrnost (čím větší je 𝑥, tím menší je 𝑦 a hodnoty 𝑦 lze z hodnot 𝑥 získat jednoduše vynásobením nějakou zápornou konstantou). pravděpodobnostní rozložení •Náhodná proměnná, 𝐴 je vlastnost, jejíž hodnotu neznáme, protože o ní nemáme dost informací nebo protože dosud žádné hodnoty nenabyla. • •Většinou máme nějaké informace o dané vlastnosti, které nám mohou vyloučit nebo téměř vyloučit některé hodnoty, například minulá pozorování. • • • • pravděpodobnostní rozdělení •Pravděpodobnostní rozdělení (pravděpodobnostní rozložení, pravděpodobnostní distribuce) jevu či vlastnosti 𝐴, je funkce, která pro jednotlivé možné hodnoty ukazuje pravděpodobnost, s jakou vlastnost 𝐴 nabude této hodnoty. • •Formálně se jedná o funkci • 𝑝 : 𝑋 → [0, 1] •kde 𝑋 je množina možných hodnot příslušné vlastnosti a •[0, 1] je uzavřený interval od nuly do jedné, tedy • ∀𝑥 ∈ 𝑋(𝑝(𝑥) ≤ 1 ∧ 𝑝(𝑥) ≥ 0). • pravděpodobnostní rozdělení •Musí platit, že součet hodnot funkce pro všechny možné hodnoty je 1, tedy • •𝑥∈𝑋 •𝑝(𝑥) = 1 • •Zároveň platí: • •𝑝(𝑥) = 𝑃(𝐴 = 𝑥) • •(Hodnota pravděpodobnostního rozložení (malé 𝑝) je rovna pravděpodobnosti (velké 𝑃, tedy obecná pravděpodobnost), s jakou vlastnost 𝐴 nabude hodnoty 𝑥. Dvojice (𝑋, 𝑝), tedy množina všech možných hodnot vlastnosti spolu s pravděpodobnostním rozložením, se nazývá pravděpodobnostní prostor.) pravroz.png určení pravděpodobnostního rozložení •První možnost: použití nějaké „ideální” funkce, které vychází z našich předpokladů o dané vlastnosti. (například hod kostkou) • •Druhá možnost: určovat pravděpodobnostní rozložení na základě měření provedeného v minulosti, které bylo zachyceno ve statistickém souboru. (například pravděpodobnostní rozložení slov, sousloví, slovních druhů v jazyku) • uniformní pravděpodobnostní rozložení •Uniformní rozložení je takové, v němž všechny hodnoty mají přibližně stejnou pravděpodobnost. Grafem jsou tedy body uspořádané přibližně do přímky vodorovné s osou 𝑥. • •Příkladem může být pravděpodobnostní rozložení výsledků hodu vyváženou kostkou. • normální pravděpodobnostní rozložení •Normální rozložení se vyznačuje tím, že nejpravděpodobnější hodnoty jsou blízké průměru a s větší odchylkou od průměru pravděpodobnost klesá. •Graf takového rozložení má tvar zvonu, např.: • norm.png Zipfovo pravděpodobnostní rozložení •Zipfovo rozložení: několik málo nejčastějších hodnot má velkou pravděpodobnost, s každou další hodnotou (setřídění od nejčastější) tato pravděpodobnost prudce klesá. • zipf.png Zipfův zákon •Zipfovo rozložení výstižně popisuje velké množství jevů, proto se někdy označuje jako „Zipfův zákon”. •Zejména v přirozeném jazyce tento zákon platí téměř všude: téměř vždy je frekvence (nebo ekvivalentně – pravděpodobnost výskytu) zhruba nepřímo úměrná pořadí podle této frekvence; to platí pro slova, dvojice slov, slovní druhy, syntaktické vztahy, sémantické kategorie a mnohá další. •Frekvence nejčastějších slovních tvarů v angličtině: „the” má relativní četnost 7 %, druhé „of” má 3,5 % a více než polovina anglických korpusů je pokryta 135 nejčastějšími slovy (stoplist) distribuční funkce •Pravděpodobnostní rozložení je pravděpodobnost, že náhodná veličina nabude určité hodnoty (resp. zda patří do dané třídy), čili 𝑝(𝑥) = 𝑃(𝐴 = 𝑥), a její hodnoty odpovídají relativním četnostem ve statistickém souboru. • •Distribuční funkce (cumulative distribution function) 𝐹, je pravděpodobnost, že náhodná veličina nabude určité hodnoty nebo menší, čili 𝐹(𝑥) = 𝑃(𝐴 ≤ 𝑥). •Její hodnoty odpovídají kumulativním relativním četnostem ve statistickém souboru. Hodnoty distribuční funkce jsou také dobře známé jako tzv. percentil. Hodnota distribuční funkce (percentil) mediánu statistického souboru je 0,5. náhodný vektor •Náhodný vektor je posloupnost náhodných veličin (počasí). Jeho pravděpodobnostní rozložení můžeme modelovat s využitím vícerozměrného statistického souboru. •Pro dvourozměrný náhodný vektor (𝐴,𝐵) je hodnota pravděpodobnostního rozložení 𝑝(𝑥, 𝑦) = 𝑃(𝐴 = 𝑥 ∧ 𝐵 = 𝑦). •Lze definovat i distribuční funkci pro náhodný vektor, např. pro dvourozměrný náhodný vektor je distribuční funkce analogicky definována jako 𝐹(𝑥, 𝑦) = 𝑃(𝐴 ≤ 𝑥 ∧ 𝐵 ≤ 𝑦). • podmíněná pravděpodobnost •Podmíněná pravděpodobnost je motivována potřebou formalizovat to, že často máme kromě pravděpodobnostního rozložení daného jevu další informace o jiném jevu, který s původním může, ale nemusí souviset. •Podmíněnou pravděpodobnost zapisujeme 𝑃(𝐴|𝐵) • a čteme „pravděpodobnost jevu 𝐴 za předpokladu, • že nastal jev 𝐵”. •Podmíněnou pravděpodobnost lze vypočítat: • 𝑃(𝐴|𝐵) = 𝑃(𝐴,𝐵) |𝑃(𝐵) • kde 𝑃(𝐴,𝐵) je pravděpodobnost, že jevy 𝐴 a 𝐵 • nastaly současně. nezávislé jevy •Skrze podmíněnou pravděpodobnost definujeme i tzv. nezávislé jevy. Intuitivně platí, že pokud jsou jevy nezávislé, pak by nám informace o jednom z nich neměla dát žádnou informaci o druhém z nich. Jevy 𝐴 a 𝐵 jsou nezávislé, pokud • 𝑃(𝐴|𝐵) = 𝑃(𝐴) ∧ 𝑃(𝐵|𝐴) = 𝑃(𝐵) • čili jsou nezávislé, pokud to, jestli nastal jev 𝐵, • nijak neovlivní pravděpodobnost jevu 𝐴 a naopak. • •Jen a pouze pro nezávislé jevy pak platí vzorec, který se snadno odvodí z nezávislosti jevů a z definice podmíněné pravděpodobnosti: • 𝑃(𝐴,𝐵) = 𝑃(𝐴) * 𝑃(𝐵)