3. Základní pojmy matematické statistiky. Diagnostické grafy. 3.1. Motivace: Matematická statistika je věda, která analyzuje a interpretuje data především za účelem získání předpovědi a zlepšení rozhodování v různých oborech lidské činnosti. Přitom se řídí principem statistické indukce, tj. na základě znalostí o náhodném výběru z určitého rozložení pravděpodobností se snaží učinit závěry o vlastnostech tohoto rozložení. Ústředním pojmem matematické statistiky je tedy pojem náhodného výběru. 3.2. Definice: Definice náhodného výběru: a) Nechť X[1], ..., X[n] jsou stochasticky nezávislé náhodné veličiny, které mají všechny stejné rozložení L( ). Řekneme, že X[1], ..., X[n ] je náhodný výběr rozsahu n z rozložení L( ). (Číselné realizace x[1], ..., x[n] náhodného výběru X[1], ..., X[n] uspořádané do sloupcového vektoru odpovídají datovému souboru zavedenému v popisné statistice.) b) Nechť (X[1],Y[1]), ..., (X[n],Y[n]) jsou stochasticky nezávislé dvourozměrné náhodné vektory, které mají všechny stejné dvourozměrné rozložení L[2]( ). Řekneme, že (X[1],Y[1]), ..., (X[n],Y[n]) je dvourozměrný náhodný výběr rozsahu n z dvourozměrného rozložení L[2]( ). (Číselné realizace (x[1],y[1]), ..., (x[n],y[n]) náhodného výběru (X[1],Y[1]), ..., (X[n],Y[n]) uspořádané do matice typu n x 2 odpovídají dvourozměrnému datovému souboru zavedenému v popisné statistice.) c) Analogicky lze definovat p-rozměrný náhodný výběr rozsahu n z p-rozměrného rozložení L[p]( ). Definice statistiky: Libovolná funkce T = T(X[1], ..., X[n]) náhodného výběru X[1], ..., X[n] (resp. T = T(X[1],Y[1], ..., X[n],Y[n]) náhodného výběru (X[1],Y[1]), ..., (X[n],Y[n])) se nazývá (výběrová) statistika. 3.3. Důsledek: Nechť X[1], ..., X[n] je náhodný výběr z rozložení s distribuční funkcí Φ(x). Pak simultánní distribuční funkce náhodného vektoru (X[1], ..., X[n]) je Φ(x[1]) … Φ(x[n]). 3.4. Definice: Definice důležitých statistik: a) Nechť X[1], ..., X[n] je náhodný výběr, n ≥ 2. M = … výběrový průměr, S^2 = … výběrový rozptyl, S = … výběrová směrodatná odchylka Pro libovolné, ale pevně dané reálné číslo x je statistikou též hodnota výběrové distribuční funkce b) Nechť je dáno r ≥ 2 stochasticky nezávislých náhodných výběrů o rozsazích n[1] ≥ 2, …, n[r] ≥ 2. Celkový rozsah je . Označme M[1], …, M[r] výběrové průměry a S[1]^2, …, S[r]^2 výběrové rozptyly jednotlivých výběrů. Nechť c[1], …, c[r] jsou reálné konstanty, aspoň jedna nenulová. … lineární kombinace výběrových průměrů, … vážený průměr výběrových rozptylů. c) Nechť (X[1],Y[1]), ..., (X[n],Y[n]) je náhodný výběr z dvourozměrného rozložení . Označme , výběrové průměry, , výběrové rozptyly. S[12] = … výběrová kovariance, R[12] = … výběrový koeficient korelace. Pro libovolnou, ale pevně zvolenou dvojici reálných čísel x,y je statistikou též hodnota výběrové simultánní distribuční funkce . Upozornění: Číselné realizace statistik M, S^2, S, S[12], R[12] odpovídají číselným charakteristikám m, s^2, s, s[12], r[12] zavedeným v popisné statistice, ale u rozptylu, směrodatné odchylky, kovariance a koeficientu korelace je multiplikativní konstanta , nikoliv , jak tomu bylo v popisné statistice. Jak uvidíme později, uvedené číselné realizace mohou být považovány za odhady číselných realizací náhodných veličin zavedených v počtu pravděpodobnosti. Charakteristika vlastnosti Počet pravděpodobnosti Matematická statistika Popisná statistika poloha E(X) = μ M m variabilita D(X) = σ^2 S^2 variabilita S společná variabilita C(X[1], X[2]) = σ[12] S[12] těsnost vztahu R(X[1], X[2]) = ρ R[12] r[12] rozložení Ф(x) F[n](x) F(x) 3.5. Příklad: (Výpočet realizací výběrového průměru, výběrového rozptylu a hodnot výběrové distribuční funkce): Desetkrát nezávisle na sobě byla změřena jistá konstanta μ. Výsledky měření byly: 2 1,8 2,1 2,4 1,9 2,1 2 1,8 2,3 2,2. Tyto výsledky považujeme za číselné realizace náhodného výběru X[1], ..., X[10]. Vypočtěte realizaci m výběrového průměru M, realizaci s^2 výběrového rozptylu S^2, realizaci s výběrové směrodatné odchylky S a hodnoty výběrové distribuční funkce F[10](x). Řešení: Pro usnadnění výpočtu hodnot výběrové distribuční funkce F[10](x) uspořádáme měření podle velikosti: 1,8 1,8 1,9 2 2 2,1 2,1 2,2 2,3 2,4. 3.6. Příklad: (Výpočet realizace výběrového koeficientu korelace): U 11 náhodně vybraných aut jisté značky bylo zjišťováno jejich stáří (náhodná veličina X – v letech) a cena (náhodná veličina Y – v tisících Kč). Výsledky: (5, 85), (4, 103), (6, 70), (5, 82), (5, 89), (5, 98), (6, 66), (6, 95), (2, 169), (7, 70), (7, 48). Vypočtěte a interpretujte číselnou realizaci r[12] výběrového koeficientu korelace R[12]. Řešení: Mezi náhodnými veličinami X a Y existuje silná nepřímá lineární závislost. Čím starší auto, tím nižší cena. 3.7. Věta: Vlastnosti důležitých statistik a) Případ jednoho náhodného výběru: Nechť X[1], ..., X[n ]je náhodný výběr z rozložení se střední hodnotou μ, rozptylem σ^2 a distribuční funkcí Φ(x). Nechť n ≥ 2. Označme M[n] výběrový průměr, S[n]^2 výběrový rozptyl a pro libovolné, ale pevně dané označme F[n](x) hodnotu výběrové distribuční funkce. Pak pro libovolné hodnoty parametrů μ , σ^2 a libovolné, ale pevně dané reálné číslo x platí: E(M[n]) = μ, D(M[n]) = , E(S[n]^2) = σ^2, D(S[n]^2) = , kde γ[4] je 4. centrální moment, E(F[n](x)) = Ф(x), b) Případ r ≥ 2 stochasticky nezávislých náhodných výběrů: Nechť , ..., je r stochasticky nezávislých náhodných výběrů o rozsazích n[1] ≥ 2, ..., n[r] ≥ 2 z rozložení se středními hodnotami μ[1], ..., μ[r] a rozptylem σ^2. Celkový rozsah je . Nechť c[1], ..., c[r] jsou reálné konstanty, aspoň jedna nenulová. Pak pro libovolné hodnoty parametrů μ[1], …, μ[r] a σ^2 platí: , E(S[*]^2) = σ^2. c) Případ jednoho náhodného výběru z dvourozměrného rozložení: Nechť (X[1],Y[1]), ..., (X[n],Y[n]) je náhodný výběr z dvourozměrného rozložení s kovariancí σ[12] a koeficientem korelace ρ. Pak pro libovolné hodnoty parametrů σ[12 ]a ρ platí: E(S[12]) = σ[12], E(R[12]) ≈ ρ (shoda je vyhovující pro n ≥ 30). 3.8. Poznámka: Metody matematické statistiky často slouží k vyhodnocování výsledků pokusů. Aby mohl být pokus správně vyhodnocen, musí být dobře naplánován. Uvedeme zde nejjednodušší typy uspořádání pokusů Předpokládejme například, že sledujeme hmotnostní přírůstky selat téhož plemene při různých výkrmných dietách. a) Jednoduché pozorování: Náhodná veličina X je pozorována za týchž podmínek. Situace je charakterizována jedním náhodným výběrem X[1], ..., X[n]. Náhodně vylosujeme n selat téhož plemene, podrobíme je jediné výkrmné dietě a zjistíme u každého selete hmotnostní přírůstek. Tím dostaneme realizaci jednoho náhodného výběru. b) Dvojné pozorování: Náhodná veličina X je pozorována za dvojích různých podmínek. Existují dvě odlišná uspořádání tohoto pokusu. Dvouvýběrové porovnávání: situace je charakterizována dvěma nezávislými náhodnými výběry a . Náhodně vylosujeme n[1 ]a n[2] selat téhož plemene, náhodně je rozdělíme na dva soubory o n[1 ]a n[2] jedincích, první podrobíme výkrmné dietě č. 1 a druhý výkrmné dietě číslo 2. Tak dostaneme realizace dvou nezávislých náhodných výběrů. Párové porovnávání: situace je charakterizována jedním náhodným výběrem z dvourozměrného rozložení. Přejdeme k rozdílovému náhodnému výběru Z[i] = X[i1] – X[i2], i = 1, …, n a tím dostaneme jednoduché pozorování. Náhodně vylosujeme n vrhů stejně starých selat téhož plemene, z každého odebereme dva sourozence a náhodně jim přiřadíme první a druhou výkrmnou dietu. Tak dostaneme realizaci jednoho dvourozměrného náhodného výběru, kde první složka odpovídá první dietě a druhá složka druhé dietě. (Párové porovnávání je efektivnější, protože skutečný rozdíl v účinnosti obou diet je překrýván pouze náhodnými vlivy při samotném krmení a trvání, kdežto vliv různých dědičných vloh, který byl losováním znárodněn, je u sourozeneckého páru selat částečně vyloučen.) c) Mnohonásobné pozorování: Náhodná veličina X je pozorována za r ≥ 3 různých podmínek. Existují dvě odlišná uspořádání tohoto pokusu. Mnohovýběrové porovnávání: situace je charakterizována r nezávislými náhodnými výběry až . Náhodně vylosujeme n[1 ], n[2], …, n[r] selat téhož plemene, náhodně je rozdělíme na r souborů o n[1 ], n[2], …, n[r] jedincích, první podrobíme výkrmné dietě č. 1, druhý výkrmné dietě číslo 2 atd. až r-tý podrobíme výkrmné dietě číslo r. Tak dostaneme realizace r nezávislých náhodných výběrů. Blokové porovnávání: situace je charakterizována jedním náhodným výběrem z r-rozměrného rozložení. Náhodně vylosujeme n vrhů stejně starých selat téhož plemene, z každého odebereme r sourozenců a náhodně jim přiřadíme první až r-tou výkrmnou dietu. Tak dostaneme realizaci jednoho r-rozměrného náhodného výběru, kde první složka odpovídá první dietě , druhá složka druhé dietě atd. až r-tá složka odpovídá r-té dietě. 3.9. Motivace: Diagnostické grafy slouží především k tomu, aby nám pomohly orientačně posoudit povahu dat a určit směr další statistické analýzy. Při zpracování dat se často předpokládá splnění určitých podmínek. V případě jednoho náhodného výběru je to především normalita (posuzujeme ji pomocí NP plotu či histogramu) a nepřítomnost vybočujících hodnot (odhalí je krabicový diagram). 3.10. Krabicový diagram Umožňuje posoudit symetrii a variabilitu datového souboru a existenci odlehlých či extrémních hodnot. Způsob konstrukce Odlehlá hodnota leží mezi vnějšími a vnitřními hradbami, tj. v intervalu (x[0,75 ]+ 1,5q, x[0,75 ]+ 3q) či v intervalu (x[0,25 ]- 3q, x[0,25 ]– 1,5q). Extrémní hodnota leží za vnějšími hradbami, tj. v intervalu (x[0,75 ]+ 3q, ∞) či v intervalu (-∞, x[0,25 ]- 3q). Příklad na krabicový diagram U 30 domácností byl zjišťován počet členů. Počet členů 1 2 3 4 5 6 Počet domácností 2 6 4 10 5 3 Pro tyto údaje sestrojte krabicový diagram. Řešení: Připomeneme nejprve definici α-kvantilu. Je-li α , pak α-kvantil x[α] je číslo, které rozděluje uspořádaný datový soubor na dolní úsek, obsahující aspoň podíl α všech dat a na horní úsek obsahující aspoň podíl 1 – α všech dat. Pro výpočet α-kvantilu slouží algoritmus: nα =[ ] Pro speciálně zvolená α užíváme názvů: x[0,50] – medián, x[0,25] – dolní kvartil, x[0,75] – horní kvartil, x[0,1], ..., x[0,9] – decily, x[0,01], ..., x[0,99] – percentily. Jako charakteristika variability slouží kvartilová odchylka: q = x[0,75] – x[0,25]. V našem případě rozsah souboru n = 30. Výpočty potřebných kvantilů uspořádáme do tabulky. α nα c x[α] 0,25 7,5 8 x[(c)]=x[(8)] 2 0,50 15 15 4 0,75 22,5 23 x[(c)]=x[(23)] 5 Dolní kvartil je 2, tedy aspoň čtvrtina domácností má aspoň dva členy. Medián je 4, tedy aspoň polovina domácností má aspoň 4 členy. Horní kvartil je 5, tedy aspoň tři čtvrtiny domácností mají aspoň 5 členů. Vypočteme kvartilovou odchylku: q = x[0,75] – x[0,25] = 5 – 2 = 3. Dolní vnitřní hradba: x[0,25] – 1,5q = 2 – 1,5.3 = -2,5 Horní vnitřní hradba: x[0,75] + 1,5q = 5 + 1,5.3 = 9,5 Nakonec sestrojíme krabicový diagram: Vidíme, že datový soubor vykazuje určitou nesymetrii – medián je posunut směrem k hornímu kvartilu, soubor je tedy záporně sešikmen. V souboru se nevyskytují žádné odlehlé ani extrémní hodnoty. 3.11. Pravděpodobnostně – pravděpodobnostní graf (P – P plot) Umožňuje graficky posoudit, zda data pocházejí z nějakého známého rozložení (např. STATISTICA nabízí 8 typů rozložení: beta, exponenciální, Gumbelovo, gamma, log-normální, normální, Rayleighovo a Weibulovo). Vypočtou se standardizované hodnoty , j = 1, ..., n. Na vodorovnou osu se vynesou hodnoty teoretické distribuční funkce Φ(z[(j)]) a na svislou osu hodnoty empirické distribuční funkce F(z[(j)]) = j/n. (Jsou-li některé hodnoty x[(1)] ≤ ... ≤ x[(n)] stejné, pak za j bereme průměrné pořadí odpovídající takové skupince.) Pokud se body (Φ(z[(j)]), F(z[(j)])) řadí kolem hlavní diagonály čtverce [0,1] x [0,1], lze usuzovat na dobrou shodu empirického a teoretického rozložení. Pro posouzení normality dat se používá normální pravděpodobnostní graf (N – P plot): na vodorovnou osu vynášíme uspořádané hodnoty x[(1)] ≤ ... ≤ x[(n)] a na svislou osu kvantily , kde (jsou-li některé hodnoty stejné, pak za j bereme průměrné pořadí odpovídající takové skupince). Pocházejí-li data z normálního rozložení, pak dvojice budou ležet na přímce. Pocházejí-li data z rozložení s kladnou šikmostí, pak dvojice se budou řadit do konkávní křivky. Pocházejí-li data z rozložení se zápotnou šikmostí, pak dvojice se budou řadit do konvexní křivky. Příklad na N – P plot: Desetkrát nezávisle na sobě byla změřena jistá konstanta. Výsledky měření: 2 1,8 2,1 2,4 1,9 2,1 2 1,8 2,3 2,2. Pomocí normálního pravděpodobnostního grafu posuďte, zda se tato data řídí normálním rozložením. Řešení: usp. hodnoty 1,8 1,8 1,9 2 2 2,1 2,1 2,2 2,3 2,4 pořadí 1 2 3 4 5 6 7 8 9 10 průměrné pořadí 1,5 1,5 3 4,5 4,5 6,5 6,5 8 9 10 Vektor hodnot průměrného pořadí: j = (1,5 3 4,5 6,5 8 9 10), vektor hodnot , vektor kvantilů . Normální pravděpodobnostní graf Protože dvojice téměř leží na přímce, lze usoudit, že data pocházejí z normálního rozložení. 3.12. Histogram Umožňuje porovnat tvar hustoty četnosti s tvarem hustoty pravděpodobnosti vybraného teoretického rozložení. (Ve STATISTICE je pojem histogramu širší, skrývá se za ním i sloupkový diagram.) Způsob konstrukce ve STATISTICE: na vodorovnou osu se vynášejí třídicí intervaly (implicitně 10, jejich počet lze změnit, stejně tak i meze třídicích intervalů) či varianty znaku a na svislou osu absolutní nebo relativní četnosti třídicích intervalů či variant. Do histogramu se zakreslí tvar hustoty (či pravděpodobnostní funkce) vybraného teoretického rozložení. Příklad na histogram U 70 domácností byly zjišťovány týdenní výdaje na nealkoholické nápoje (v Kč). Výdaje Počet dom. 7 16 27 14 4 2 Nakreslete histogram. Řešení: Histogram s proloženou hustotou pravděpodobnosti normálního rozložení Vidíme, že tvar histogramu se poněkud odchyluje od tvaru hustoty pravděpodobnosti normálního rozložení. Malé hodnoty jsou četnější než velké – datový soubor je kladně sešikmen. Vlastnosti rozložení četností datového souboru se projeví ve vzhledu histogramu, N–P plotu a krabicového diagramu, jak vidíme na na následujícím obrázku: