MA 0008 – teorie psti cvičení 01: znak a průměr Cvičení může probíhat před první přednáškou Rozdělení oborů tohoto předmětu (podle Budíková, Maroš, Králová 2009) š š A) popisná statistika (týdny 1-2) … descriptive statistics šZpřehledňuje informace ukryté v souborech naměřených dat pomocí tabulek, grafů, funkcí, číselných hodnot. šB) teorie psti (týdny 3-8) … probability theory šZabývá se popisem náhodnosti v experimentech, kdy za stejných vstupních podmínek nastávají různé výsledky. šC) úsudková statistika (týdny 9-12) … statistical inference šBuduje metody pro analýzu dat, kdy informace (data) získané z náhodného výběru jedinců zobecňuje na celou populaci; její součástí je teorie odhadu, testování statistických hypotéz, statistická predikce = předpověď. š šStatistická jednotka … elementární jednotka podrobená statistickému zpracování (např. zaměstnanec, student, firma, věc (např. doklad), událost (např. nehoda) š šJedna zpracovávaná jednotka má zpravidla několik statistických znaků š šStatistický znak = statistická proměnná … konkrétní vlastnost statistické jednotky (např. věk zaměstnance, mzda zaměstnance, nejvyšší dosažené vzdělání, atd.) A) Popisná statistika Statistické znaky = proměnné můžeme rozdělit na několik typů: š2) kvalitativní = nominální = kategoriální znak šVyjadřuje se slovně (nomen = jméno, název) nebo subjektivním číslem š šKvalitativní znaky někdy dělíme na š alternativní … nabývají dvou hodnot (např. ano-ne, muž-žena) š množné … nabývají >2 hodnot (vzdělání: ZŠ, SŠ, VŠ, Ph.D.) š ordinální … vyjádřené subjektivní stupnicí (např. míra spokojenosti s výrobkem vyjádřená číslem ze stupnice 1=hodně až 5=vůbec ne), známka ve škole) š Statistické znaky = proměnné můžeme rozdělit na několik typů: šI kvalitativní znaky lze vyjádřit číslem a zpracovat počítačem: š alternativní … např. ano =1, ne=0 š množné … např. ZŠ=1, SŠ=2, VŠ=3, Ph.D.=4) š ordinální … už je vyjádřeno číslem na stupnici 1 až 5 šOvšem tyto číselné hodnoty jsou subjektivní, např. 2 minus 1 je číselně stejný rozdíl jako 3 minus 2, přesto nelze říci, že existuje stejný odstup mezi „rozhodně ano“ a „spíše ano“ jako mezi „nevím“ a „spíše ano“ (nebo ve škole nelze říci, že rozdíl mezi známkou 1 a 2 je hodnotově stejný jako rozdíl mezi známkou 4 a 5) š Odlišnost mezi kvantit. a kvalit. znaky: šVe třídě … kvantitativní znaky … - počet sourozenců š ….. – výška v cm š š šVe třídě … kvalitativní znaky … - barva očí š …. – chlapec, dívka š Příklad na ZŠ – práce v hodině šZákladní soubor … soubor všech jednotek, na kterých má smysl sledovat určité znaky = proměnné. Zpravidla je velmi obsáhlý, někdy nekonečný, tj. změřit všechny jednotky je často nákladné nebo neproveditelné š šA proto provádíme tzv. š šVýběrové šetření … pro získání informací ze základního souboru vybereme jenom několik jednotek, měřením či dotazníkem získáme tzv. výběrový soubor š Jak získáme data? Měřením nebo dotazníkem šTento výběrový soubor by měl být získán z reprezentativního vzorku populace = z takové množiny vybraných jedinců, který je věrnou zmenšeninou populace, má tedy stejné vlastnosti, výběr nestraní žádnému jednotlivci nebo skupině, tvoří ho jednotky pro základní soubor typické š š(získat takový nestranný vzorek může být dost náročné) š š Jak získáme data? Měřením nebo dotazníkem Máme tedy výběrový soubor a chceme spočítat průměr jeho hodnot: V jazyku R: š# slova za znakem křížku jsou poznámky, které už do příkazu v jazyku R nepište (ani ten křížek ne, jen po napsání příkazu stiskněte ENTER) š ØPrověrku psalo 50 lidí – počty bodů zapišme do vektoru v: Ø v<- c(4, 4, 4, 4, 4, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 8, 8, 8, 8, 8, 8, 8, 8, 8, 8, 8, 8, 11, 11, 11, 11,11,11,11,11,11,11,11,11,11,11,11,12,12,12,12,12,12,12,12) přiřadí výběrový soubor do vektoru „v“ (pozn.: c=column … sloupcový vektor) Ø summary(v) # najde průměr, medián, min, max, dolní (1.) kvartil, horní (3.) kvartil souboru naměřených hodnot Øtable(v) # spočítá četnosti hodnot v souboru „v“ Př: vypočtete průměr, median, min, max, horní kvartil, dolní kvartil bodů z prověrky 1. Aritmetický průměr = běžný průměr libovolných reálných hodnot š š š 1. 1. 1.Vypočtěte vážený průměr pomocí četností 2. š příklad: z 15 lidí vyrobili za směnu po řadě: 7,4,8,7,5,5,9,7,6,5,8,6,7,5,4 výrobků Počet výrobků 4 5 6 7 8 9 četnost 2 4 2 4 2 1 příklad: z 15 lidí vyrobili za směnu po řadě: 7,4,8,7,5,5,9,7,6,5,8,6,7,5,4 výrobků Počet výrobků 4 5 6 7 8 9 četnost 2 4 2 4 2 1 a)Př.: Hodnoty růstu v procentech byly za posledních 5 let 101,3 %, 108,5 %, 100,6 %, 98,7 %, 102,3 %.Vypočtěte průměrný roční nárůst za dané pětileté období: b)Hindls, str. 35, př. 1.8. … geom. průměr, vážený geom. průměr šV jazyce R: Øgeometric <- function (x) exp(mean(log(x))) # definice funkce Øgeometric(v) # spočte průměr geometrický v souboru měření „v“ 1. š 2. Geometrický průměr … vyjadřuje např. průměrný roční nárůst produkce za n let šPokud v R nadefinujeme funkce geometric(v), harmonic(v), dále např. výpočet rozptylu (viz cvičení 2) pomocí funkce rozptyl(v) ša dáme při vypínání prostředí R volbu uložit „workspace“ YES, štak při dalším spuštění je obsah všech proměnných, včetně všech funkcí, znovu nastaven, tj. lze pokračovat v rozdělané práci, používat nadefinované funkce, apod. š š(při uložení několika různých workspace pod různými jmény je možné nahrát proměnné a funkce různých projektů podle názvu daného workspace) š Důležitá poznámka k jazyku R: 3. Harmonický průměr = převrácená hodnota průměru převrácených hodnot: a)Crawley, str. 118, slon chodí po obvodu čtverce o straně 2km, po každé straně jinou rychlostí (1 km/hod, 2 km/hod, 4 km/hod, 1km/hod) … jaká je jeho průměrná rychlost? b) b)Hindls, str.36-37, př. 1.7 … harm-průměr, vážený harm-průměr c) šc) Využití na ZŠ: asi mohou mít v olympiádě, typický příklad je a) čtyři lidi urazí dráhu různou rychlostí – jaká je průměrná rychlost? Časy jsou různé, ale dráha je stejná š příklady š š šDo cvičení si noste minimálně kalkulačku – budete ji také moci použít u prověrky-a š š