Kapitola 3.: Diagnostické grafy a testy normality dat 3.1. Motivace Diagnostické grafy slouží především k tomu, aby nám pomohly orientačně posoudit povahu dat a určit směr další statistické analýzy. Při zpracování dat se často předpokládá splnění určitých podmínek. V případě jednoho náhodného výběru je to především normalita (posuzujeme ji pomocí NP plotu, Q-Q plotu, histogramu) a nepřítomnost vybočujících hodnot (odhalí je krabicový diagram). U dvou či více nezávislých náhodných výběrů sledujeme kromě normality též shodu středních hodnot nebo shodu rozptylů - homoskedasticitu (porovnáváme vzhled krabicových diagramů). V případě jednoho dvourozměrného náhodného výběru často posuzujeme dvourozměrnou normalitu dat (použijeme dvourozměrný tečkový diagram s proloženou 100(l-a)% elipsou konstantní hustoty pravděpodobnosti). Vzhledem k důležitosti předpokladu normality se vedle grafického posouzení doporučuje též použití některého testu normality, např. Kolmogorovova - Smirnovova testu nebo Shapirova - Wilkova testu. K závěrům těchto testů však přistupujeme s určitou opatrností. Máme-li k dispozici rozsáhlejší datový soubor (orientačně n > 30) a test zamítne na obvyklé hladině významnosti 0,01 nebo 0,05 hypotézu o normalitě, i když vzhled diagnostických grafů svědčí jenom o lehkém porušení normality, nedopustíme se závažné chyby, pokud použijeme statistickou metodu založenou na normalitě dat. 3.2. Krabicový diagram 3.2.1. Popis diagramu Umožňuje posoudit symetrii a variabilitu datového souboru a existenci odlehlých či extrémních hodnot. Způsob konstrukce je zřejmý z obrázku: O odlehlá hodnota horní vnitřní hradba nebo max. hodnota ■ŕ? — horní kvartil — medián — dolní kvartil dolní vnitřní hradba nebo min. hodnota — extrémní hodnota Odlehlá hodnota leží mezi vnějšími a vnitřními hradbami, tj. v intervalu (x0,75 + l,5q, x0,75 + 3q) či v intervalu (x0j25 - 3q, x0j25 - l,5q). Extrémní hodnota leží za vnějšími hradbami, tj. v intervalu (x0j5 + 3q, oo) či v intervalu (-°°, x0,25-3q). 3.2.2. Příklad U 30 domácností byl zjišťován počet členů. Počet členů 1 2 3 4 5 6 Počet domácností 2 6 4 10 5 3 Pro tyto údaje sestrojte krabicový diagram. Řešení: Připomeneme nejprve definici a-kvantilu. Je-li a e (O; l), pak a-kvantil xa je číslo, které rozděluje uspořádaný datový soubor na dolní úsek, obsahující aspoň podíl a všech dat a na horní úsek obsahující aspoň podíl 1 - a všech dat. Pro výpočet a-kvantilu slouží algoritmus: celé číslo c =>xr X(c) +X(c+1) na = ( "■ 2 ^necelé číslo => zaokrouhlíme nahoru na nejbližší celé číslo c => xa = x(c) Pro speciálně zvolená a užíváme názvů: x0,5o - medián, x0,25 - dolní kvartil, x0j5 - horní kvartil, x0,i, ..., x0,9 - decily, x0,oi, •••, x0,99 - percentily. Jako charakteristika variability slouží kvartilová odchylka: q = x0j5 - x0,25- V našem případě rozsah souboru n = 30. Výpočty potřebných kvantilů uspořádáme do tabulky. a na c Xa 0,25 7,5 8 x(c)=X(8) 2 0,50 15 15 X(15) +X(16)) 2 4 0,75 22,5 23 X(c)=X(23) 5 Dolní kvartil je 2, tedy aspoň čtvrtina domácností má aspoň dva členy. Medián je 4, tedy aspoň polovina domácností má aspoň 4 členy. Horní kvartil je 5, tedy aspoň tři čtvrtiny domácností mají aspoň 5 členů. Vypočteme kvartilovou odchylku: q = x0j5 - x0,25 = 5-2 = 3. Dolní vnitřní hradba: x0,25 - l,5q = 2 - 1,5.3 = -2,5 Horní vnitřní hradba: x0j5 + l,5q = 5 + 1,5.3 = 9,5 Nakonec sestrojíme krabicový diagram: Vidíme, že datový soubor vykazuje určitou nesymetrii - medián je posunut směrem k hornímu kvartilu, soubor je tedy záporně zešikmen. V souboru se nevyskytují žádné odlehlé ani extrémní hodnoty. 3.3. Normální pravděpodobnostní graf (NP-plot) 3.3.1. Popis grafu NP-plot umožňuje graficky posoudit, zda data pocházejí z normálního rozložení. Způsob konstrukce: na vodorovnou osu vynášíme uspořádané hodnoty x(i) < ... < x(n) a na svislou osu kvantily ua , kde a j 3j-l 3n + l přičemž j je pořadí j-té uspořádané hodnoty (jsou- li některé hodnoty stejné, pak za j bereme průměrné pořadí odpovídající takové skupince). Pocházejí-li data z normálního rozložení, pak všechny dvojice (x(j),ua ) budou ležet na pnmce. Pro data z rozložení s kladnou šikmostí se dvojice (x(j),ua ) budou řadit do konkávni křivky, zatímco pro data z rozložení se zápornou šikmostí se dvojice (x(j),ua ) budou řadit do konvexní křivky. Rozložení s kladnou šikmostí Normální rozložení Rozložení se zápornou šikmostí Histogram Histogram Histogram -2,5 -2D -15 -1p -0 5 0,0 0,5 1p 15 2p 2 5 NPplot NPplot NPplot • <^ /, ^ *£- y t / Z Í Ý r Ž -ý ť ^ • Krabicový diagram Krabicový diagram Krabicový diagram 3.3.2. Příklad Desetkrát nezávisle na sobě byla změřena jistá konstanta. Výsledky měření: 2 1,8 2,1 2,4 1,9 2,1 2 1,8 2,3 2,2. Pomocí normálního pravděpodobnostního grafu posuďte, zda se tato data řídí normálním rozložením. Řešení: usp.hodnoty 1,8 1,8 1,9 2 2 2,1 2,1 2,2 2,3 2,4 pořadí 1 2 3 4 5 6 7 8 9 10 průměrné pořadí 1,5 1,5 3 4,5 4,5 6,5 6,5 8 9 10 Vektor hodnot průměrného pořadí: j = (1,5 3 4,5 6,5 8 9 10), 3j-l vektor hodnot a; 3n + l (0,1129;0,2581;0,4032;0,5968;0,7419;0,8387;0,9355), vektor kvantilůu a = (-1,2112;-0,6493;-0,245;0,245;0,6493;0,9892;l,5179). Normální pravděpodobnostní graf 1 1.2 1.4 1.6 1.8 2 2.2 2.4 2.6 2.8 3 Protože dvojice (x(j),ua ) téměř leží na přímce, lze usoudit, že data pocházejí z normálního rozložení. 3.4. Kvantil-kvantilový graf (Q-Q plot) 3.4.1. Popis grafu Umožňuje graficky posoudit, zda data pocházejí z nějakého známého rozložení (např. systém STATISTIC A nabízí 8 typů rozložení: beta, exponenciální, Gumbelovo, gamma, log-normální, normální, Rayleighovo a Weibulovo). Pro nás je nejdůležitější právě normální rozložení. Způsob konstrukce: na svislou osu vynášíme uspořádané hodnoty x(i) < ... < x(n) a na vodorovnou osu kvantily Ka (X) vybraného rozložení, kde a j J radj n + n pncemz radj a nadj adj jsou korigující faktory < 0,5, implicitně radj = 0,375 a nadj = 0,25. (Jsou-li některé hodnoty x(i) < ... < X(n) stejné, pak za j bereme průměrné pořadí odpovídající takové skupince.) Pokud vybrané rozložení závisí na nějakých parametrech, pak se tyto parametry odhadnou z dat nebo je může zadat uživatel. Body \Ka (X), x q J se metodou nejmenších čtverců proloží přímka. Čím méně se body odchylují od této přímky, tím je lepší soulad mezi empirickým a teoretickým rozložením. 3.4.2. Příklad Pro data z příkladu 3.4.1. posuďte pomocí kvantil - kvantilového grafu, zda pocházejí z normálního rozložení. Řešení: Na základě tabulky vytvořené při řešení příkladu 3.4.1. stanovíme: vektor hodnot průměrného pořadí: j = (1,5 3 4,5 6,5 8 9 10), vektor hodnot a j = J~0'375 = (0,1098;0,2561;0,4024;0,5976;0,7439;0,8415;0,939), vektor kvantilůuaj = (-l,2278;-0,6554;-0,247;0,247;0,6554;l,0005;l,56ó) Kvantil - kvantilový graf -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 Vzhled grafu nasvědčuje tomu, že data pocházejí z normálního rozložení. 3.5. Histogram 3.5.1. Popis grafu Umožňuje porovnat tvar hustoty četnosti s tvarem hustoty pravděpodobnosti vybraného teoretického rozložení. (Ve STATISTICE je pojem histogramu širší, skrývá se za ním i sloupkový diagram.) Způsob konstrukce ve STATISTICE: na vodorovnou osu se vynášejí třídicí intervaly (implicitně 10, jejich počet lze změnit, stejně tak i meze třídicích intervalů) či varianty znaku a na svislou osu absolutní nebo relativní četnosti třídicích intervalů či variant. Do histogramu se zakreslí tvar hustoty (či pravděpodobnostní funkce) vybraného teoretického rozložení. Kromě 8 typů rozložení uvedených u Q-Q plotu umožňuje STATISTICA použít ještě další 4 rozložení: Laplaceovo, logistické, geometrické, Poissonovo. 3.5.2. Příklad U 70 domácností byly zjišťovány týdenní výdaje na nealkoholické nápoje (v Kč). Výdaje (35,65) (65,95) (95,125) (125,155) (125,155) (185,215) Počet dom. 7 16 27 14 4 2 Nakreslete histogram s proloženou hustotou pravděpodobnosti normálního rozložení s parametry m a s2, kde m je aritmetický průměr a s2 rozptyl vypočtený z dat. Řešení: Pro výpočet průměru resp. rozptylu použijeme vzorec pro vážený aritmetický průměr resp. vážený rozptyl. 1^ m 2 njXU] = — (7 • 50 +16 • 80 + 27 • 110 +14 • 140 + 4 • 170 + 2 • 200) = 109,14 n j=i 70 -^— Énj(x[j]"m)2 =—[7-(50-109,14)2+... + 2-(200-109,14)2]=1138,24 Hodnoty hustoty pravděpodobnosti normálního rozložení s parametry mas musíme vynásobit číslem 30.70 = 2100, kde 30 je délka třídicích intervalů a 70 rozsah datového souboru. Histogram s proloženou hustotou pravděpodobnosti normálního rozložení 50 80 110 140 170 200 Vidíme, že tvar histogramu se poněkud odchyluje od tvaru hustoty pravděpodobnosti normálního rozložení. Malé hodnoty jsou četnější než velké - datový soubor je kladně zešikmen. 3.6. Dvourozměrný tečkový diagram 3.6.1. Popis diagramu Máme dvourozměrný datový soubor (xi, yi), ... , (xn, yn), který je realizací dvourozměrného náhodného výběru (Xi, Yi), ... , (Xn, Yn) z dvourozměrného rozložení. Na vodorovnou osu vyneseme hodnoty Xj, na svislou hodnoty yk a do příslušných průsečíků nakreslíme tolik teček, jaká je absolutní četnost dvojice (xj, yk). Jedná-li se o náhodný výběr z dvourozměrného normálního rozložení, měly by tečky zhruba rovnoměrně vyplnit vnitřek elipsovitého obrazce. Vrstevnice hustoty dvourozměrného normálního rozložení jsou totiž elipsy - viz následující obrázek. Graf hustoty a vrstevnice dvourozměrného normálního rozložení s parametry ui = 0, \i2 = 0,g12=1,g22=1,p = -0,75: -ír—"bf~"—&*'* Do dvourozměrného tečkového diagramu můžeme ještě zakreslit 100(l-a)% elipsu konstantní hustoty pravděpodobnosti. Bude-li více než 100a% teček ležet vně této elipsy, svědčí to o porušení dvourozměrné normality. Bude-li mít hlavní osa elipsy kladnou resp. zápornou směrnici, znamená to, že mezi veličinami X a Y existuje určitý stupeň přímé resp. nepřímé lineární závislosti. 3.6.2. Příklad Máme k dispozici výsledky testů ze dvou předmětů zjištěné u osmi náhodně vybraných studentů určitého oboru. Číslo studenta 1 2 3 4 5 6 7 8 Počet bodů v 1. testu 80 50 36 58 42 60 56 68 Počet bodů ve 2. testu 65 60 35 39 48 44 48 61 Pomocí dvourozměrného tečkového diagramu se zakreslenou 95% elipsou konstantní hustoty pravděpodobnosti posuďte, zda tato data lze považovat za realizace náhodného výběru z dvourozměrného normálního rozložení. Řešení: 0 20 40 60 80 100 120 počet bodů v 1. testu Obrázek svědčí o tom, že předpoklad dvourozměrné normality je oprávněný a že mezi počty bodů z 1. a 2. testu bude existovat určitý stupeň přímé lineární závislosti, tzn., že u studentů, kteří měli vysoký resp. nízký počet bodů v 1. testu, lze očekávat vysoký resp. nízký počet bodů ve 2. testu. 3.7. Kolmogorovův - Smirnovův test normality dat 3.7.1. Popis testu Testujeme hypotézu, která tvrdí, že náhodný výběr Xi, ..., Xn pochází z normálního rozložení s parametry \x a g2. Distribuční funkci tohoto rozložení označme