Základní pojmy matematické statistiky Motivace Matematická statistika je věda, která analyzuje a interpretuje data především za účelem získání předpovědi a zlepšení rozhodování v různých oborech lidské činnosti. Přitom se řídí principem statistické indukce, tj. na základě znalostí o náhodném výběru z určitého rozložení pravděpodobností se snaží učinit závěry o vlastnostech tohoto rozložení. Ústředním pojmem matematické statistiky je tedy pojem náhodného výběru. Definice náhodného výběru: a) Nechť Xx,Xn jsou stochasticky nezávislé náhodné veličiny, které mají všechny stejné rozložení L(a). Řekneme, že Xi,Xn je náhodný výběr rozsahu n z rozložení L(a). (Číselné realizace xx,xn náhodného výběru Xi,Xn uspořádané do sloupcového vektoru odpovídají datovému souboru zavedenému v popisné statistice.) b) Nechť (Xi,Yi),(Xn,Yn) jsou stochasticky nezávislé dvourozměrné náhodné vektory, které mají všechny stejné dvourozměrné rozložení L20). Řekneme, že (Xi,Yi),(Xn,Yn) je rozměrného rozložení L2(#). (Číselné realizace (xi,yi),(xn,yn) náhodného výběru (Xi,Yi),(Xn,Yn) uspořádané do matice typu nx2 odpovídají dvourozměrnému datovému souboru zavedenému v popisné statistice.) c) Analogicky lze definovat p-rozměrný náhodný výběr rozsahu n z p-rozměrného rozložení Lp(*). ■ Důsledek Je-li Xi,Xn náhodný výběr z rozložení s distribuční funkcí O(x), pak simultánní distribuční funkce náhodného vektoru (Xi,Xn) je O(xi)... 0(xn). Definice statistiky: Libovolná funkce T = T(XX,Xn) náhodného výběru Xi,Xn (resp. T = T(Xi,Yi,Xn,Yn)) náhodného výběru (Xi,Yi),(Xn,Yn)) se nazývá (výběrová) statistika. Definice důležitých statistik: a) Nechť Xi,Xn je náhodný výběr, n > 2. Označme 1 výběrový průměr, ^ n_^^(^i ^) ... výběrový rozptyl, S = VŠ^~ ... výběrová směrodatná odchylka Pro libovolné, ale pevně dané reálné číslo x je statistikou též hodnota výběrové distribuční funkce Fn(x) = -card{i;Xj < x} b) Nechť je dáno r > 2 stochasticky nezávislých náhodných výběrů o rozsazích nx > 2, ..nr Celkový rozsah je n = XnJ j=i Označme Mi, ..., Mr výběrové průměry a Si2, ..Sr2 výběrové rozptyly jednotlivých výběrů. Nechť Ci, cr jsou reálné konstanty, aspoň jedna nenulová. r S c j ... lineární kombinace výběrových průměrů, Q 2 -J± n -r ... vážený průměr výběrových rozptylů. c) Nechť (Xi,Yi),(Xn,Yn) je náhodný výběr z dvourozměrného rozložení o rozsahu n. 1 n 1 n Označme _~S^í , ^2 _~^LYi výběrové průměry, n ~ Si2 -TTtZ(Xí ~mi)2 , S22 -—tZ(Yí ~M2)2 výběrové rozptyly. 1 n Si2 = ——7 X (Xi ~ M1 XYi ~ M 2)... výběrová kovariance, 11 1 i=l ' 1 f X.-M. = 2,4:F10(x) = l 1,2 -0,2 I-■-'-'-'-'-■-— 1,7 1,8 1,9 2,0 2,1 2,2 2,3 2,4 x Příklad (výpočet realizace výběrového koeficientu korelace): U 11 náhodně vybraných aut jisté značky bylo zjišťováno jejich stáří (náhodná veličina X - v letech) a cena (náhodná veličina Y - v tisících Kč). Výsledky: (5, 85), (4, 103), (6, 70), (5, 82), (5, 89), (5, 98), (6, 66), (6, 95), (2, 169), (7, 70), (7, 48). Vypočtěte a interpretujte číselnou realizaci rí2 výběrového koeficientu korelace Ri2. v Řešení: m, = -Jx1=-í-(5 + 4 + ... + 7) = 5,28 ntŕ 11 = -fyi = — (85 + 103 + . .. + 48) = 88, nj-f 11 í n n-H i Z*, 2 2 -nm, 1 V i=i í n = — (52 +42 +... + 72 -ll-5,282)=2,02 10 n-1 1 2 2 -nm, V i=i í n = — (852 +1032 +... + 482 -11 • 88,632) = 970,85 J 10 '12 r!2 = n-1 S12 ■nnijirij Vi=i J -40,82 = —(5-85 + 4-103 + .. . + 7- 48-11-5,28-88,63) = -40,89 10 = -0,92 srs2 7^Ô2--\/970,85 Mezi náhodnými veličinami X a Y existuje silná nepřímá lineární závislost. Čím starší auto, tím nižší cena. a) Případ jednoho náhodného výběru: Nechť Xi,Xnje náhodný výběr z rozložení se střední hodnotou jí, rozptylem o a distribuční funkcí <3>(x). Nechť n > 2. Označme Mn výběrový průměr, Sn výběrový rozptyl a pro libovolné, ale pevně dané x e r označme Fn(x) hodnotu výběrové distribuční funkce. Pak pro libovolné hodnoty parametrů jí , o2 a libovolné, ale pevně dané reálné číslo x platí: e(mn) = jí, D(M) = — n ' E(Sn2) = o2, d(s„2)=^ n G4 (n-3) n(n _ i) > kde 74 je 4. centrální moment, E(F„(x)) = O(x), D(Fn(x)) = ^lL^Wl b) Případ r > 2 stochasticky nezávislých náhodných výběrů: Nechť Xn,..., Xlnj s _s Xrl,..., Xrn je r stochasticky nezávislých náhodných výběrů o rozsazích nx > 2, nr > 2 z rozložení se středními hodnotami \iu |ir a rozptylem o . Celkový rozsah je »§.,.Nec„f c......c,jS» »p„„ *«,„,„e„,„, P,t P„ ^ ty parametrů ..., |ir a o2 platí: ( r 2>.iM.i =2>.^ E(S*2) = o2. c) Případ jednoho náhodného výběru z dvourozměrného rozložení: Nechť (Xi,Yi),(Xn,Yn) je náhodný výběr z dvourozměrného rozložení s kovariancí o12 a koeficientem korelace p. Pak pro libovolné hodnoty parametrů ai2 a p platí: E(Si2) = Gl2, E(Ri2) ~ p (shoda je vyhovující pro n > 30). Metody matematické statistiky často slouží k vyhodnocování výsledků pokusů. Aby mohl být pokus správně vyhodnocen, musí být dobře naplánován. Uvedeme zde nej jednodušší typy uspořádání pokusů Předpokládejme například, že sledujeme hmotnostní přírůstky selat téhož plemene při různých výkrmných dietách. a) Jednoduché pozorování: Náhodná veličina X je pozorována za týchž podmínek. Situace je charakterizována jedním náhodným výběrem Xi,Xn. Náhodně vylosujeme n selat téhož plemene, podrobíme je jediné výkrmné dietě a zjistíme u každého selete hmotnostní přírůstek. Tím dostaneme realizaci jednoho náhodného výběru. b) Dvojné pozorování: Náhodná veličina X je pozorována za dvojích různých podmínek. Existují dvě odlišná uspořádání tohoto pokusu. Dvouvýběrové porovnávání: situace je charakterizována dvěma nezávislými náhodnými výběry xu,...,xlni a x21,...,x2n2. Náhodně vylosujeme ni a n2 selat téhož plemene, náhodně je rozdělíme na dva soubory o ni a n2 jedincích, první podrobíme výkrmné dietě č. 1 a druhý výkrmné dietě číslo 2. Tak dostaneme realizace dvou nezávislých náhodných výběrů. Párové porovnávání: situace je charakterizována jedním náhodným výběrem (xn,X12),...,(Xnl,Xn2) z dvourozměrného rozložení. Přejdeme k rozdílovému náhodnému výběru Zj = Xji - Xi2, i = 1, ..., n a tím dostaneme jednoduché pozorování. Náhodně vylosujeme n vrhů stejně starých selat téhož plemene, z každého odebereme dva sourozence a náhodně jim přiřadíme první a druhou výkrmnou dietu. Tak dostaneme realizaci jednoho dvourozměrného náhodného výběru, kde první složka odpovídá první dietě a druhá složka druhé dietě. (Párové porovnávání je efektivnější, protože skutečný rozdíl v účinnosti obou diet je překrýván pouze náhodnými vlivy při samotném krmení a trvání, kdežto vliv různých dědičných vloh, který byl losováním znáhodněn, je u sourozeneckého páru selat částečně vyloučen.) c) Mnohonásobné pozorování: Náhodná veličina X je pozorována za r > 3 různých podmínek. Existují dvě odlišná uspořádání tohoto pokusu. Mnohovýběrové porovnávání: situace je charakterizována r nezávislými náhodnými výběry xu,...,xlniaž xrl,..., xrnr. Náhodně vylosujeme ni, n2, ..., nr selat téhož plemene, náhodně je rozdělíme na r souborů o ni, n2, ..., nr jedincích, první podrobíme výkrmné dietě č. 1, druhý výkrmné dietě číslo 2 atd. až r-tý podrobíme výkrmné dietě číslo r. Tak dostaneme realizace r nezávislých náhodných výběrů. Blokové porovnávání: situace je charakterizována jedním náhodným výběrem (xn,..., Xlr),..., (Xnl,..., Xnr) z r-rozměrného rozložení. Náhodně vylosujeme n vrhů stejně starých selat téhož plemene, z každého odebereme r sourozenců a náhodně jim přiřadíme první až r-tou výkrmnou dietu. Tak dostaneme realizaci jednoho r-rozměrného náhodného výběru, kde první složka odpovídá první dietě, druhá složka druhé dietě atd. až r-tá složka odpovídá r-té dietě. Diagnostické grafy slouží především k tomu, aby nám pomohly orientačně posoudit povahu dat a určit směr další statistické analýzy. Při zpracování dat se často předpokládá splnění určitých podmínek. V případě jednoho náhodného výběru je to především normalita (posuzujeme ji pomocí NP plotu, Q-Q plotu, histogramu) a nepřítomnost vybočujících hodnot (odhalí je krabicový diagram). U dvou či více nezávislých náhodných výběrů sledujeme kromě normality též shodu středních hodnot nebo shodu rozptylů - homoskedasticitu (porovnáváme vzhled krabicových diagramů). V případě jednoho dvourozměrného náhodného výběru často posuzujeme dvourozměrnou normalitu dat (použijeme dvourozměrný tečkový diagram s proloženou 100(l-a)% elipsou konstantní hustoty pravděpodobnosti). Krabicový diagram Umožňuje posoudit symetrii a variabilitu datového souboru a existenci odlehlých či extrémních hodnot. Způsob konstrukce o odlehlá hodnota horní vnitřní hradba nebo max. hodnota — horní kvartil — medián —i- — dolní kvartil —L- - dolní vnitřní hradba nebo min. hodnota •ů - extrémní hodnota Odlehlá hodnota leží mezi vnějšími a vnitřními hradbami, tj. v intervalu (x0,75 + l,5q, x0,75 + 3q) či v intervalu (x0,25 - 3q, x0,25 - l,5q). Extrémní hodnota leží za vnějšími hradbami, tj. v intervalu (x0,75 + 3q, oo) či v intervalu (-00, x0,25 - 3q). Pro speciálně zvolená a užíváme názvů: x0,5o - medián, x0,25 - dolní kvartil, x0,75 - horní kvartil, x0,i,x0,9 - decily, x0,oi, x0,99 - percentily. Jako charakteristika variability slouží kvartilová odchylka: q = x0,75 - Xo,25- Příklad U 30 domácností byl zjišťován počet členů. Počet členů 1 2 3 4 5 6 Počet domácností 2 6 4 10 5 3 Pro tyto údaje sestrojte krabicový diagram. Řešení: Připomeneme nejprve definici a-kvantilu. Je-li oce (0;0, pak a-kvantil xa je číslo, které rozděluje uspořádaný datový soubor na dolní úsek, obsahující aspoň podíl a všech dat a na horní úsek obsahující aspoň podíl 1 - a všech dat. Pro výpočet a-kvantilu slouží algoritmus: / celé číslo c => x„ = X(c) + X(c+1) na = \ necelé číslo => zaokrouhlíme nahoru na nejbližší celé číslo c => xa = x (c) Algoritmus: Data: 1 - v i _^ X(c) + X(c+1) cele cislo c => x„ = —^--—- na = l \ necelé číslo => zaokrouhlíme nahoru na nejbližší celé číslo c ^> xa = x Počet členů 1 2 3 4 5 6 Počet domácností 2 6 4 10 5 3 (c) V našem případě rozsah souboru n = 30. Výpočty potřebných kvantilů uspořádáme do tabulky. a na c 0,25 7,5 8 X(c)-X(8) 2 0,50 15 15 X(15) + x(16)) 2 4 0,75 22,5 23 X(c)=X(23) 5 Dolní kvartil je 2, tedy aspoň čtvrtina domácností má nejvýše dva členy. Medián je 4, tedy aspoň polovina domácností má nejvýše 4 členy. Horní kvartil je 5, tedy aspoň tři čtvrtiny domácností mají nejvýše 5 členů. Vypočteme kvartilovou odchylku: q = x0,75 - x0,25 = 5 - 2 = 3. Dolní vnitřní hradba: x0,25 - l,5q = 2- 1,5.3 = -2,5 Horní vnitřní hradba: x0,75 + l,5q = 5 + 1,5.3 = 9,5 Nakonec sestrojíme krabicový diagram: Vidíme, že datový soubor vykazuje určitou nesymetrii - medián je posunut směrem k hornímu kvartilu, soubor je tedy záporně zešikmen. V souboru se nevyskytují žádné odlehlé ani extrémní hodnoty. Řešení pomocí systému STATISTIC A: Vytvoříme datový soubor se dvěma proměnnými Počet členů a Počet domácností a šesti případy. Vytvoření krabicového diagramu: Grafy - 2D Grafy - Krabicové grafy. Aktivujeme váhy -v okénku Váhy případů pro analýzu/graf zaškrtneme Status Zapnuto a zadáme Proměnná vah Počet domácností, OK. Na panelu 2D Krabicové grafy zadáme Proměnné - Závisle proměnné Počet členů, OK. Dostaneme krabicový diagram Krabicový graf (Tabulkal 2v*6c) D Medián =4 □ 25%-75% = (2, 5) Rozsah neodleh. = (1.6) Odlehlé t- Extrémy Z obrázku lze vyčíst, že medián je 4 (aspoň polovina domácností má nejvýš 4 členy), dolní kvartil 2 (aspoň čtvrtina domácností má nejvýš 2 členy), horní kvartil 5 (aspoň tři čtvrtiny domácností mají nejvýš 5 členů), minimum 1, maximum 6. Kvartilová odchylka je 5-2 = 3. Datový soubor vykazuje určitou nesymetrii - medián je posunut směrem k hornímu kvartilu, soubor je tedy záporně zešikmen. Odlehlé ani extrémní hodnoty se nevyskytují. Normální pravděpodobnostní graf (NP-plot) NP-plot umožňuje graficky posoudit, zda data pocházejí z normálního rozložení. Způsob konstrukce: na vodorovnou osu vynášíme uspořádané hodnoty x(i} < ... < x(n) a na _ 3j-l svislou osu kvantily uaj, kde aj 3n +1 > přičemž j je pořadí j-té uspořádané hodnoty (jsou-li některé hodnoty stejné, pak za j bereme průměrné pořadí odpovídající takové skupince). Pocházejí-li data z normálního rozložení, pak všechny dvojice (x(j) 'uWj) budou ležet na přímce. Pro data z rozložení s kladnou šikmostí se dvojice (x(j)'uJ budou řadit do konkávni křivky, zatímco pro data z rozložení se zápornou šikmostí se dvojice (x ua ) téměř leží na přímce, lze usoudit, že data pocházejí z normálního rozložení. Řešení pomocí systému STATISTIC A: Vytvoříme datový soubor s jednou proměnnou X a deseti případy. Grafy - 2D Grafy - Normální pravděpodobnostní grafy - Proměnné X, OK. Kvantil-kvantilový graf (Q-Q plot) Umožňuje graficky posoudit, zda data pocházejí z nějakého známého rozložení (např. systém STATISTICA nabízí 8 typů rozložení: normální, beta, exponenciální, extrémních hodnot, gamma, log-normální, Rayleighovo a Weibulovo). Pro nás je nej důležitější právě normální rozložení. Způsob konstrukce: na svislou osu vynášíme uspořádané hodnoty x(i) < ... < x(n) a na = J~radj vodorovnou osu kvantily Kaj (X) vybraného rozložení, kde ai n + n , přičemž radj a nacy adj jsou korigující faktory < 0,5, implicitně radj = 0,375 a nacy = 0,25. (Jsou-li některé hodnoty X(i) < ... < X(n) stejné, pak za j bereme průměrné pořadí odpovídající takové skupince.) Pokud vybrané rozložení závisí na nějakých parametrech, pak se tyto parametry odhadnou z dat nebo je může zadat uživatel. Body (K«,(X),x(j)) se metodou nejmenších čtverců proloží přímka. Cím méně se body odchylují od této přímky, tím je lepší soulad mezi empirickým a teoretickým rozložením. Příklad Pro údaje o měření konstanty posuďte pomocí kvantil - kvantilového grafu, zda pocházejí z normálního rozložení. v Řešení: Na základě tabulky vytvořené při řešení předešlého příkladu stanovíme: vektor hodnot průměrného pořadí: j = (1,5 3 4,5 6,5 8 9 10), vektor hodnot aj =1~^ = (0,1098;0,2561;0,4024;0,5976;0,7439;0,8415;0,939)! vektor kvantilů ^ = (-l,2278;-0,6554;-0,247;0,247;0,6554;l,0005;l,566) Kvantil - kvantilový graf 3r-,-,-,-,-,-[-[-n 2.8 - J 2.6 - J 2.4 - "1 2.2 - A 2 - • J 1.8- ] 1.6 - J 1.4 - J 1.2 - \ Vzhled grafu nasvědčuje tomu, že data pocházejí z normálního rozložení. Řešení pomocí systému STATISTICA: Zvolíme Grafy - 2D Grafy - Grafy typu Q-Q - ponecháme implicitní nastavení na normální rozložení (pokud bychom chtěli změnit nastavení na jiný typ rozložení, zvolili bychom ho na záložce Detaily) - Proměnné Měření, OK. Vzhled grafu nasvědčuje tomu, že data pocházejí z normálního rozložení. Umožňuje porovnat tvar hustoty četnosti s tvarem hustoty pravděpodobnosti vybraného teoretického rozložení. (Ve STATISTICE je pojem histogramu širší, skrývá se za ním i sloupkový diagram.) Způsob konstrukce ve STATISTICE: na vodorovnou osu se vynášejí třídicí intervaly (implicitně 10, jejich počet lze změnit, stejně tak i meze třídicích intervalů) či varianty znaku a na svislou osu absolutní nebo relativní četnosti třídicích intervalů či variant. Do histogramu se zakreslí tvar hustoty (či pravděpodobnostní funkce) vybraného teoretického rozložení. Kromě 8 typů rozložení uvedených u Q-Q plotu umožňuje STATISTICA použít ještě další 4 rozložení: Laplaceovo, logistické, geometrické, Poissonovo. Příklad U 70 domácností byly zjišťovány týdenní výdaje na nealkoholické nápoje (v Kč). Výdaje (35,65) (65,95) (95,125) (125,155) (155,185) (185,215) Počet domácností 7 16 27 14 4 2 Nakreslete histogram. Řešení pomocí systému STATISTIC A: Vytvoříme nový datový soubor s dvěma proměnnými Výdaje a Počet domácností. Do proměnné Výdaje zapíšeme středy třídicích intervalů, do proměnné Počet domácností odpovídající absolutní četnosti třídicích intervalů. V menu zvolíme Grafy - Histogramy - pomocí tlačítka s obrázkem závaží zadáme proměnnou vah Počet domácností - OK, Proměnná Výdaje -zapneme volbu Všechny hodnoty - OK. Dostaneme histogram: 50 80 110 140 1 70 200 Výdaje Vidíme, že tvar histogramu není symetrický. Malé hodnoty jsou četnější než velké - datový soubor je kladně zešikmen. Vlastnosti rozložení četností datového souboru se projeví ve vzhledu diagnostických grafů: Rozložení s kladnou šikmostí Normální rozložení Rozložení se zápornou šikmostí Histogram N-P plot Histogram N-P plot Histogram N-P plot Krabicový diagram Krabicový diagram Krabicový diagram Dvourozměrný tečkový diagram Máme dvourozměrný datový soubor (xi, yO, ... , (xn, yn), který je realizací dvourozměrného náhodného výběru (Xx, Yi), ... , (Xn, Yn) z dvourozměrného rozložení. Na vodorovnou osu vyneseme hodnoty Xj, na svislou hodnoty yk a do příslušných průsečíků nakreslíme tolik teček, jaká je absolutní četnost dvojice (xj, yk). Jedná-li se o náhodný výběr z dvourozměrného normálního rozložení, měly by tečky zhruba rovnoměrně vyplnit vnitřek elipsovitého obrazce. Vrstevnice hustoty dvourozměrného normálního rozložení jsou totiž elipsy - viz následující obrázek. Graf hustoty a vrstevnice dvourozměrného normálního rozložení s parametry jii = 0, |i2 = 0, ai2=l,a22=l,p = -0,75: Do dvourozměrného tečkového diagramu můžeme ještě zakreslit 100(l-a)% elipsu konstantní hustoty pravděpodobnosti. Bude-li více než 100a% teček ležet vně této elipsy, svědčí to o porušení dvourozměrné normality. Bude-li mít hlavní osa elipsy kladnou resp. zápornou směrnici, znamená to, že mezi veličinami X a Y existuje určitý stupeň přímé resp. nepřímé lineární závislosti. V dílně pracuje 15 dělníků. Byl u nich zjištěn počet směn odpracovaných za měsíc (náhodná veličina X) a počet zhotovených výrobků (náhodná veličina Y): X 20 21 18 17 20 18 19 21 20 14 16 19 21 15 15 Y 92 93 83 80 91 85 82 98 90 60 73 86 96 64 81. Pomocí dvourozměrného tečkového diagramu se zakreslenou 95% elipsou konstantní hustoty pravděpodobnosti posuďte, zda tato data lze považovat za realizace náhodného výběru z dvourozměrného normálního rozložení. Řešení pomocí systému STATISTICA: Vytvoříme nový datový soubor se dvěma proměnnými X a Y a 15 případy. Nakreslíme dvourozměrný tečkový diagram: Grafy - 2D Grafy - Bodové grafy. Vypneme lineární proložení. Zadáme Proměnné - X-X, Y-Y - OK. Dostaneme dvourozměrný tečkový diagram. Nyní do diagramu zakreslíme 95% elipsu konstantní hustoty pravděpodobnosti: 2x klikneme na pozadí grafu a otevře se okno s názvem Vš. možnosti. Vybereme Graf: Elipsa, zvolíme Přidat novou elipsu. Po vykreslení elipsy změníme měřítko: na vodorovné ose bude minimum 10, maximum 26, na svislé ose bude minimum 40, maximum 120. (Stačí 2x kliknout na číselný popis osy a na záložce Měřítka vybrat manuální mód.) Obrázek svědčí o tom, že předpoklad dvourozměrné normality je oprávněný a že mezi počtem směn a počtem výrobků bude existovat určitý stupeň přímé lineární závislosti, tzn., že u dělníků, kteří odpracovali vysoký resp. nízký počet směn, lze očekávat vysoký resp. nízký počet zhotovených výrobků.