Masarykova univerzita v Brně Přírodovědecká fakulta SBÍRKA PŘÍKLADŮ K PŘEDMĚTU APLIKOVANÁ STATISTIKA I Brno, 2015 1 - Základní práce se softwarem R - Příkazy V úvodní hodině se seznámíme se statistickým softwarem R a naučíme se používat základní příkazy, načítat datové soubory, kreslit grafy a exportovat je do pdf souborů. 1 2 - Bodové a intervalové rozložení četností Příklad č.l: Načtěte datový soubor znamky.txt. 1. Vytvořte variační řadu (tabulku rozložení četností) (a) známek z matematiky (znak X); (b) známek z angličtiny (znak Y). 2. Vytvořte sloupkový diagram absolutních četností znaků X a Y. 3. Vytvořte polygon absolutních četností znaků X a Y. 4. Vytvořte variační řady (tabulky rozložení četností) známek z matematiky a angličtiny (a) pouze pro ženy; (b) pouze pro muže. 5. Vytvořte kontingenční tabulku simultánních absolutních četností znaků X a Y. 6. Vytvořte kontingenční tabulku sloupcově a řádkově podmíněných relativních četností znaků X a Y. Zamyslete se nad odpověďmi na následující otázky: • Kolik procent studentů, kteří prospěli z angličtiny, neudělalo zkoušku z matematiky? • Jaký je podíl studentů, kteří neudělali zkoušku z angličtiny a neprospěli ani z matematiky? Kolik je to studentů? • Kolik procent studentů, kteří prospěli z matematiky, neudělalo zkoušku z angličtiny? • Jaký je podíl studentů, kteří neudělali zkoušku z matematiky a neprospěli ani z angličtiny? Kolik je to studentů? Příklad č.2: Načtěte soubor ocel.txt. 1. Podle Sturgersova pravidla najděte optimální počet třídicích intervalů pro znaky plasticita a pevnost a vhodně stanovte meze třídicích intervalů pro každý znak. Dále určete středy těchto intervalů a příslušné variační řady. 2. Vytvořte histogram pro plasticitu a pro pevnost. 3. Sestavte kontingenční tabulky absolutních četností a relativních četností dvourozměrných třídicích intervalů pro dvojici znaků (plasticita, pevnost). 4. Nakreslete dvourozměrný tečkový diagram pro (plasticita, pevnost). 5. Dobrovolný úkol: Vytvořte stereogram pro (plasticita, pevnost). 2 3 - Výpočet číselných charakteristik jednorozměrného a dvourozměrného datového souboru Příklad č.l U 100 náhodně vybraných osob jsme zjišťovali barvu jejich vlasů (znak X, varianty l=blond, 2=černé, 3=hnědá) a barvu jejich očí. (znak Y, varianty 1 = hnědá, 2 = zelená, 3 = modrá). hnědá zelená modrá blond 13 15 14 černá 11 7 2 hnědá 19 9 10 (a) Pro oba znaky určete modus. (b) Určete, zda mezi znaky vlasy a oci existuje nějaká závislot (Pokud ano, jaká?). (Nápověda: Protože oba znaky jsou nominálního typu, použijeme na zhodnocení závislosti Cramérův koeficient.) Pro připomenutí zde uvádíme tabulku stupňů lineární závislosti pro Cramérův koeficient: Cramérův koeficient interpretace 0 - 0,1 zanedbatelná závislost 0.1 - 0.3 slabá závislost 0.3 - 0.7 střední závislost 0.7- 1 silná závislost Příklad č.2 Otevřete datový soubor znamky.txt. (a) Pro známky z matematiky a angličtiny vypočtěte medián, dolní a horní kvartil, kvartilovou odchylku a vytvořte krabicový diagram. (b) Určete vzájemnou závislot známek z matematiky a známek z angličtiny pro všechny studenty, pak zvlášť pro muže a zvlášť pro ženy. Získané výsledky interpretujte. (Nápověda: Protože oba znaky jsou ordinálního charakteru, použijeme na zhodnocení závislosti Spear-manův korelační koeficient.) Pro připomenutí zde uvádíme tabulku stupňů pořadové závislosti pro Spearmanův korelační koeficient: Abs.hod. korel.koef. Interpretace hodnoty 0 lineární nezávislost (0;0.1) velmi nízký stupeň závislosti [0.1; 0.3) nízký stupeň závislosti [0.30; 0.50) mírný stupeň závislosti [0.50; 0.70) význačný stupeň závislosti [0.70; 0.90) vysoký stupeň závislosti [0.90; 1) velmi vysoký stupeň závislosti 1 úplná lineární závislost 3 (c) Svůj závěr o (ne)závislost znaků známka z matematiky a známka z angličtiny doložte tečkovými diagramy. Příklad č.3 Otevřete datový soubor ocel.txt. (a) Pro mez plasticity a mez pevnosti vypočtěte aritmetický průměr, směrodatnou odchylku, rozptyl, koeficient variace, šikmost a špičatost. (b) Vypočtěte Pearsonův koeficient korelace meze plasticity a meze pevnosti. Dále vypočtěte také kovarianci a kovarianční matici. Příklad č.4 Je třeba si uvědomit, že průměr a rozptyl nepopisují rozložení četností jednoznačně. Existují datové soubory, které mají shodný průměr i rozptyl, ale přesto se jejich rozložení četností velmi liší. Tuto skutečnost dobře ilustruje následující příklad: Tři skupiny studentů o počtech 149, 69 a 11 odpovídaly při testu na 10 otázek. Znak X je počet správně zodpovězených otázek. Známe absolutní četnosti znaku X ve všech třech skupinách. Poznámka: Data k tomuto c.sk / X 0 1 2 3 4 5 6 7 8 9 10 1 2 5 15 20 25 15 25 20 15 5 2 2 4 3 2 1 0 49 0 1 2 3 4 3 1 0 0 0 0 49 0 0 0 0 1 příkladu lze nalézt v souboru odpovedi.txt. Vypočtěte průměr, rozptyl, šikmost a špičatost počtu správně zodpovězených otázek ve všech třech skupinách. Nakreslete sloupkové diagramy absolutních četností. 4 4 - Využití systému R při řešení příkladů na opakované pokusy Vyřešte následující příklady. Ke každému příkladu zobrazte tvar příslušné distribuční funkce a hustoty. Binomické rozložení pravděpodobností: Příklad č.l: Pojišťovna zjistila, že 12% pojistných událostí je způsobeno vloupáním. Jaká je pravděpodobnost, že mezi 30 náhodně vybranými pojistnými událostmi bude způsobeno vloupáním (a) nejvýše 6; (b) alespoň 6; (c) právě 6; (d) od dvou do pěti? Příklad č.2: V rodině je 10 dětí. Za předpokladu, že chlapci i dívky se rodí s pravděpodobností 0.5 a pohlaví se formuje nezávisle na sobě, určete pravděpodobnost, že v této rodině je (a) právě 5 chlapců; (b) nejméně 3 a nejvýše 8 chlapců. Příklad č.3: Na dvoukolejném železničním mostě se potkají během 24 hodin nejvýše dva vlaky, a to s pravděpodobností 0.2. Za předpokladu, že denní provozy jsou nezávislé, určete pravděpodobnost, že během týdne se dva vlaky na mostě potkají (a) právě třikrát; (b) nejvýše třikrát; (c) alespoň třikrát. Příklad č.4: Je pravděpodobnější vyhrát se stejně silným soupeřem tři partie ze čtyř nebo pět partií z osmi, když nerozhodný výsledek je vyloučen a výsledky jsou nezávislé? Úspěch je výhra partie se stejně silným soupeřem, když remíza je vyloučena, pravděpodobnost úspěchu ů = 0.5. Příklad č.5: Dvacetkrát nezávisle na sobě házíme třemi mincemi. Jaká je pravděpodobnost, že alespoň v jednom hodě padnou tři líce? 5 Výsledek testu skutečnost Celkem H (pozitivní) H (negativní) A (pozitivní) a=50 b=300 350 A (negativní) c=25 d=870 895 celkem 75 1170 1245 Geometrické rozložení pravděpodobností: Příklad č.6: Jaká je pravděpodobnost, že při hře „Člověče, nezlob se!" nasadíme figurku nejpozději při třetím hodu? Příklad č.7: Studenti biologie zkoumají barvu očí octomilek. Pravděpodobnost, že octomilka má bílou barvu očí, je 0.25, červenou 0.75. Jaká je pravděpodobnost, že až čtvrtá zkoumaná octomilka má bílou barvu očí? Hypergeometrické rozložení pravděpodobností: Příklad č.8: Koupili jsme 10 cibulek červených tulipánů a 5 cibulek žlutých tulipánů. Zasadili jsme 8 náhodně vybraných cibulek. (a) Jaká je pravděpodobnost, že žádná cibulka nebude cibulka žlutých tulipánů? (b) Jaká je pravděpodobnost, že jsme zasadili všech 5 cibulek žlutých tulipánů? (c) Jaká je pravděpodobnost, že aspoň dvě cibulky budou cibulky žlutých tulipánů? Příklad č.9: Dítě dostalo sáček, v němž bylo 5 červených a 5 žlutých bonbónů. Dítě náhodně vybralo ze sáčku 6 bonbónů. Jaká je pravděpodobnost, že mezi vybranými bonbóny budou právě 2 červené? Diagnostické testy - Nepovinné Příklad č.10: Provádělo se ověřování kvality nového testu pro diagnostikování jisté poruchy sluchu, která se vyskytuje u 12% osob v populaci. Test byl ověřován u 1245 osob, u nichž byl stav sluchu vyšetřen již dříve podrobnými klinickými postupy. Výsledky máme v tabulce: Vypočtěte prediktivní validitu pozitivního i negativního testu. 6 5 - Pravděpodobnostní funkce, hustoty a distribuční funkce v systému R, výpočet pravděpodobností pomocí distribučních funkcí Vyřešte následující příklady. Ke každému příkladu zobrazte tvar příslušné distribuční funkce a hustoty. Poissonovo rozložení Příklad č.l: Při provozu balicího automatu vznikají během směny náhodné poruchy, které se řídí rozložením Po(2). Jaká je pravděpodobnost, že během směny dojde k aspoň jedné poruše? Rovnoměrné rozložení Příklad č.2: Na automatické lince se plní láhve mlékem. Působením náhodných vlivů množství mléka kolísá v intervalu (980 ml; 1020 ml). Každé množství mléka v tomto intervalu považujeme za stejně možné. Jaká je pravděpodobnost, že v náhodně vybrané láhvi bude aspoň 1010 ml mléka? Exponenciální rozložení Příklad č.3: Doba do ukončení opravy v opravně obuvi je náhodná veličina, která se řídí exponenciálním rozložením se střední dobou opravy 3 dny. Jaká je pravděpodobnost, že oprava bude ukončena do dvou dnů? Příklad č.4: Doba (v hodinách), která uplyne mezi dvěma naléhavými příjmy v jisté nemocnici, se řídí exponenciálním rozložením se střední dobou čekání 2 h. Jaká je pravděpodobnost, že uplyne více než 5 h bez naléhavého příjmu? Normální rozložení Příklad č.5: Výsledky u přijímacích zkoušek na jistou VS jsou normálně rozloženy s parametry fi = 550 bodů, o = 100 bodů. S jakou pravděpodobností bude mít náhodně vybraný uchazeč aspoň 600 bodů? Příklad č.6: : Životnost baterie v hodinách je náhodná veličina, která má normální rozložení se střední hodnotou 300 hodin a směrodatnou odchylkou 35 hodin. Jaká je pravděpodobnost, že náhodně vybraná baterie bude mít životnost (a) aspoň 320 hodin? (b) nejvýše 310 hodin? Příklad č.7: Na výrobní lince jsou automaticky baleny balíčky rýže o deklarované hmotnosti 1000 g. Působením náhodných vlivů hmotnost balíčků kolísá. Lze ji považovat za náhodnou veličinu, která se řídí normálním rozložením se střední hodnotou 996 g a směrodatnou odchylkou 18 g. Jaká je pravděpodobnost, že náhodně vybraný balíček rýže neprojde výstupní kontrolou, jestliže je povolená tolerance ±30 g od deklarované hmotnosti 1000 g? 7 6 - Výpočet číselných charakteristik náhodných veličin pomocí softwaru R Příklad č.l: (a) Nechť U ~ N(0,1). Najděte medián a horní a dolní kvartil. (b) Nechť X ~ iV(3,5). Najděte dolní kvartil. (c) Určete ^.025(25). (d) Určete í0.99(30) a í0.05(14). (e) Určete F0.975(5 , 20) a F0.05(2,10). Příklad č.2: Postupně se zkouší spolehlivost čtyř přístrojů. Další přístroj se zkouší jen tehdy, když předchozí je spolehlivý. Každý z přístrojů vydrží zkoušku s pravděpodobností 0.8. Náhodná veličina X udává počet zkoušených přístrojů. Vypočtěte střední hodnotu a rozptyl náhodné veličiny X. Příklad č.3: Náhodná veličina X udává počet ok při hodu kostkou. Vypočtěte střední hodnotu a rozptyl náhodné veličiny X. Příklad č.4: Náhodná veličina X udává příjem manžela (v tisících dolarů) a náhodná veličina Y příjem manželky (v tisících dolarů). Je známa simultánní pravděpodobnostní funkce ir(x,y) diskrétního náhodného vektoru (X, Y): Vypočtěte koeficient korelace příjmů manžela a manželky. Tabulka simultánní pstní fce tt(X, Y) X - příjem manžela Y - příjem manželky 10 20 30 40 10 0.2 0.04 0.01 0 20 0.1 0.36 0.09 0 30 0 0.05 0.1 0 40 0 0 0 0.05 Vytvořte, funkci corel.koef, jejímž vstupem bude matice simultánních pstních fcí A, vektor x = (10, 20, 30,40) a vektor y = (10, 20, 30,40) a výstupem bude hledaný koeficient korelace. Příklad č.5: Diskrétní náhodný vektor (Xi,^) má simultánní pravděpodobnostní funkci s hodnotami tt(0,-1) = c, tt(0,0) = tt(0, 1) = tt(1, —1) = tt(2,-1) = 0, tt(1,0) = tt(1,1) = 7r(2,1) = 2c, 7r(2,0) = 3c, ir(x,y) = 0 jinak. Určete konstantu c a vypočtěte R(X1} X2). 8 7 - Základní pojmy matematické statistiky Příklad č.l: Ve 12-ti náhodně vybraných prodejnách ve městě byly zjištěny následující ceny určitého výrobku (v Kč): 102,99,106,103,96,98,100,105,103,98,104,107. Těchto 12 hodnot považujeme za realizace náhodného výběru Xi,... ,X±2 z rozložení, které má střední hodnotu p a rozptyl a2. (a) Určete nestranné bodové odhady neznámé střední hodnoty p a neznámého rozptylu a2 a směrodatné odchylky o. (b) Najděte výběrovou distribuční funkci F12(x) a nakreslete její graf. Příklad č.2: Přírůstky cen akcií v % na burze v New Yorku u 10-ti náhodně vybraných společností dosáhly těchto hodnot: 10,16,5,10,12,8,4,6,5,4. Odhadněte střední hodnotu p a směrodatnou odchylku o růstu cen akcií a dále odhadněte pravdě-podobnost růstu cen akcií aspoň o 8.5 %. Příklad č.3: Bylo zkoumáno 9 vzorků půdy s různým obsahem fosforu (veličina X). Hodnoty veličiny Y označují obsah fosforu v obilných klíčcích (po 38 dnech), jež vyrostly na těchto vzorcích půdy. číslo vzorku 1 2 3 4 5 6 7 8 9 X 1 4 5 9 11 13 23 23 28 Y 64 71 54 81 76 93 77 95 109 Těchto 9 dvojic hodnot považujeme za realizace náhodného výběru (Xi, Y±),..., (Xg, Yg) z dvourozměrného rozložení s kovariancí o\2 a koeficientem korelace p. Najděte bodové odhady kovariance a12 a koeficientu korelace p. Výslednou hodnotu koeficientu korelace interpretujte. Poznámka: Interpretace hodnot koeficientů korelace \p\: (a) v přírodních vědách: hodnota p interpretace (0; 0.4) (0.4; 0.6) (0.6; 0.8) (0.8; 1) žádná/téměř žádná závislost slabá závislost mírná závislost silná závislost (b) v sociálních vědách: Nesmíme zapomenout, že kromě míry závislosti můžeme pomocí koeficientu korelace určit, zda jde o závislost přímou (koef.korelace je kladný) nebo nepřímou (koef.korelace je záporný). Příklad č.4: Pět mužů zjistilo a zapsalo svou hmotnost (v kg) a výšku (v cm): Najděte nestranný bodový odhad rozptylu hmotnosti, rozptylu výšky a kovariance hmotnosti a výšky. Vypočtěte rovněž realizaci výběrového koeficientu korelace hmotnosti a výšky. 9 hodnota p interpretace (0; 0.15) (0.15; 0.3) (0.3; 0.5) (0.5; 0.6) (0.6; 0.8) (0.8; 1) žádná/téměř žádná závislost slabá závislost mírná závislost celkem silná závislost silná závislost velmi silná závislost Číslo muže 1 2 3 4 5 Hmotnost Výška 76 86 73 84 79 170 177 169 174 175 Výslednou hodnotu koeficientu korelace interpretujte. Dále vytvořte histogramy pro hmotnost a výšku. Příklad č.5: Při kontrolních zkouškách životnosti 16-ti žárovek byl stanoven odhad m = 3000 h střední hodnoty jejich životnosti. Z dřívějších zkoušek je známo, že životnost žárovky se řídí normálním rozložením se směrodatnou odchylkou o = 20 h. Vypočtěte (a) 99 % empirický interval spolehlivosti pro střední hodnotu životnosti; (b) 90 % levostranný empirický interval spolehlivosti pro střední hodnotu životnosti; (c) 95 % pravostranný empirický interval spolehlivosti pro střední hodnotu životnosti. Poznámka: Výsledek zaokrouhlete na jedno desetinné místo a vyjádřete v hodinách a minutách. Příklad č.6: Víme, že výška hochů ve věku 9.5 let až 10 let má normální rozložení s neznámou střední hodnotou fi a známým rozptylem a2 = 39.112 cm2. Dětský lékař náhodně vybral 15 hochů uvedeného věku, změřil je a vypočítal realizaci výběrového průměru m = 139.13 cm. Podle jeho názoru by výška hochů v tomto věku neměla přesáhnout 142 cm s pravděpodobností 0.95. Lze tvrzení lékaře akceptovat? 10 8 - Ověřování normality a parametrické úlohy o jednom náhodném výběru z normálního rozložení a dvourozměrného rozložení Příklad č.l: Při nanášení tenkých kovových vrstev stříbra na polymerní materiál se vyžaduje, aby tloušťka vrstvy byla 0.020 /xm. Pomocí atomové absorpční spektroskopie se zjistily hodnoty, jež jsou uvedeny v tabulce a uloženy v souboru vrstva_stribra.txt. Posuďte Q-Q grafem, zda se výsledky měření řídí normálním rozložením. Příklad č.2: 1. U 48 studentek VŠE v Praze byla zjišťována výška a obor studia (1 - národní hospodářství, 2 - informatika). Hodnoty jsou uloženy v souboru vyska.txt. Pomocí Q-Q grafu posuďte vizuálně předpoklad normality. Na hladině významnosti a = 0.05 testujte hypotézu, že data pocházejí z normálního rozložení. Hypotézu otestujte pomocí (a) Lillieforsovy modifikace K-S testu; (b) Shapirova-Wilkova testu; (c) Andersonova-Darlingova testu; (d) Pearsonova \2 testu; 2. Testy normality a grafické ověření normality proveďte jak pro výšky studentek oboru národní hospodářství, tak pro výška studentek oboru informatiky. Příklad č.3: Předpokládejme, že velký ročník na vysoké škole má výsledky ze statistiky normálně rozloženy kolem střední hodnoty 72 bodů se směrodatnou odchylkou 9 bodů. Najděte pravděpodobnost, že průměr výsledků náhodného výběru 10-ti studentů bude větší než 80 bodů. Příklad č.4: Z populace stejně starých selat téhož plemene bylo vylosováno šest selat a po dobu půl roku jim byla podávána táž výkrmná dieta. Byly zaznamenávány průměrné denní přírůstky hmotnosti v Dg. Z dřívějších pokusů je známo, že v populaci mívají takové přírůstky normální rozložení, avšak střední hodnota i rozptyl se měnívají. Přírůstky v Dg: 62, 54, 55, 60, 53, 58. (a) Najděte 95% empirický levostranný interval spolehlivosti pro neznámou střední hodnotu fi při neznámé směrodatné odchylce o. (b) Najděte 95% empirický interval spolehlivosti pro směrodatnou odchylku o. Poznámka: Nezapomeňte před tvorbou intervalů spolehlivosti ověřit normalitu dat, která je nezbytným předpokladem zaručujícím spolehlivost intervalů. Příklad č.5: Systematická chyba měřícího přístroje se eliminuje nastavením přístroje a měřením etalonu, jehož správná hodnota je fi = 10.00. Nezávislými měřeními za stejných podmínek byly získány hodnoty: 10.24, 10.12, 9.91, 10.19, 9.78, 10.14, 9.86, 10.17, 10.05, které považujeme za realizace náhodného výběru rozsahu 9 z rozložení N(fi,a2). Je možné při riziku 0.05 vysvětlit odchylky od hodnoty 10.00 působením náhodných vlivů? Hypotézu otestujte pomocí (a) kritického oboru; 11 (b) intervalu spolehlivosti; (c) p-ho dno ty. Příklad č.6: U 25-ti náhodně vybraných dvoulitrových lahví s nealkoholickým nápojem byl zjištěn přesný objem nápoje. Výběrový průměr činil m = 1.991 a výběrová směrodatná odchylka s = 0.11. Předpokládejme, že objem nápoje v láhvi je náhodná veličina s normálním rozložením. Na hladině významnosti a = 0.05 ověřte tvrzení výrobce, že směrodatná odchylka je 0.081. Tvrzení ověřte pomocí (a) kritického oboru; (b) intervalu spolehlivosti; (c) p-ho dno ty. Příklad č.7: Bylo vylosováno 6 vrhů selat a z nich vždy dva sourozenci. Jeden z nich vždy dostal náhodně dietu č.l a druhý dietu č.2. Přírůstky v Dg jsou následující: (62;52), (54;56), (55;49), (60;50), (53;51), (58;50). Za předpokladu, že uvedené dvojice tvoří náhodný výběr z dvourozměrného rozložení s vektorem středních hodnot (pi, /Í2) a jejich rozdíly se řídí normálním rozložením, sestrojte 95% interval spolehlivosti pro rozdíl středních hodnot. Pomocí tohoto intervalu otestujte hypotézu, že výkrmná dieta nemá vliv na hmotnostní přírůstky selat. Příklad č.8: Bylo vybráno šest nových vozů téže značky a po určité době bylo zjištěno, o kolik mm se sjely jejich levé a pravé přední pneumatiky. Výsledky: (1.8; 1.5), (1.0; 1.1), (2.2; 2.0), (0.9; 1.1), (1.5; 1.4), (1.6; 1.4). Za předpokladu, že uvedené dvojice tvoří náhodný výběr z dvourozměrného rozložení s vektorem středních hodnot (//i,//2) a jejich rozdíly se řídí normálním rozložením, testujte na hladině významnosti a = 0.05 hypotézu, že obě pneumatiky se sjíždějí stejně rychle. 12 9 - Parametrické úlohy o dvou nezávislých náhodných výběrech z normálních rozložení a jednom náhodném výběru z alternativního rozložení Příklad č.l: Intervaly spolehlivosti pro parametrické funkce fii — /j>2, °i/°2 Bylo vylosováno 11 stejně starých selat téhož plemene. Šesti z nich byla předepsána výkrmná dieta č.l a zbylým pěti výkrmná dieta č.2. Průměrné denní přírůstky v Dg za dobu půl roku jsou následující: dieta č.l: 62 54 55 60 53 58 dieta č.2: 52 56 49 50 51 Zjištěné hodnoty považujeme za realizace dvou nezávislých náhodných výběrů pocházejících z rozložení _/V(//i,of) a iV(/i2, (j|). (a) Sestrojte 95 % empirický interval spolehlivosti pro podíl rozptylů. Pomocí tohoto intervalu otestujte hypotézu, že rozptyly o\ a o\ jsou shodné. (b) Za předpokladu, že data pocházejí z rozložení N(fii,af) a iV(/i2,a-|), sestrojte 95% empirický interval spolehlivosti pro rozdíl středních hodnot fii — /j>2- Příklad č.2: Jsou dány dva nezávislé náhodné výběry o rozsazích n\ = 25, ri2 = 10, první pochází z rozložení N(fii,af), druhý z rozložení iV^,^), kde parametry fii, fi2,