Inferenční statistika - úvod o z-skóry o normální rozdělení o pravděpodobnost o rozdělení výběrových průměrů Pravděpodobnost o postupy induktivní statistiky vycházejí z teorie pravděpodobnosti o pravděpodobnost, že nastane určitý výsledek, definujeme jako podíl počet pokusů, kdy nastal jev A delěno celkový počet jevů o pravděpodobnost bývá uváděna nejčastěji jako podíl (0,33), zlomek (1/3) nebo procento (33,3%) o pravděpodobnost určitého jevu nebo třídy jevů můžeme odhadnout z rozdělení hodnot (četností) Pravděpodobnost - příklady o představme si, že máme krabici se 40 očíslovanými žetony s čísly 1 -- 5 o v tabulce jsou uvedeny absolutní i relativní četnosti jednotlivých čísel žetonů o hodnoty jsou v pořadí: číslo žetonu, absolutní četnost, relativní četnost Tabulka: o 1 4 0,10 o 2 8 0,20 o 3 16 0,40 o 4 10 0,25 o 5 2 0,05 o vaším úkolem je vytáhnout 1 žeton o jaká je pravděpodobnost, že vytáhnete žeton s číslem 3? o p (3) = f/N = 16/40 =0,40 nebo 2/5 či 40% o Jaká je pravděpodobnost, že vytáhnete žeton s číslem vyšším než 2? p(X > 2) = ? 0,05 + 0,25 + 0,40 = 0,70 tj. 70% o Jaká je pravděpodobnost, že vytáhnete žeton s číslem nižším než 5? p(X < 5) = ? 0,10 + 0,20 + 0,40 + 0,25 = 0,95 tj. 95% Jaká je pravděpodobnost, že vytáhnete žeton s číslem nižším než 4 a vyšším než 1? p(4 > X > 1) = ? 0,20 + 0,40 = 0,60 tj. 60% Pravděpodobnost o pravděpodobnost odpovídá hustotě oblasti pod křivkou pro daný interval Z-skóry o transformace hodnot proměnné o umožňují najít a popsat pozici každé hodnoty v rámci rozdělení hodnot o a také srovnávání hodnot pocházejících z měření na rozdílných stupnicích o hrubé skóry jsou převedeny na standardizovanou stupnici (jednotkou je směrodatná odchylka) Z-skóry - příklad o např. skóry ze dvou testů -- biologie a psychologie o v testu z biologie byl průměr celého ročníku m=18 (sd=6) o v testu z psychologie byl průměr celého ročníku m=500 (sd=100) o student získal 26 bodů z biologie a 620 z psychologie. Ve kterém předmětu byl lepší? o přímé porovnání není snadné -- skóry z obou testů mají rozdílné průměry i směrodatné odchylky o z skór =odchylka skóru od průměru vzhledem k velikosti směrodatné odchylky o z = odch. od průměru/směr. odch. o skór z biologie: (26-18)/6 = 1,33 o skór psychologie: (620-500)/100=1,2 o v biologii byl student lepší: 1,33 směrodatné odchylky nad průměrem Z-skóry o z-skór přesně udává pozici každé hodnoty vzhledem k ostatním hodnotám o znaménko (+ nebo -) ukazuje, zda je hodnota nad nebo pod průměrem rozdělení o hodnota z-skóru upřesňuje, kolik směrodatných odchylek byla hodnota od průměru vzdálena o průměr rozdělení z-skórů je vždy 0 o směrodatná odchylka je 1 Z-skóry vzorec pro výpočet z-skóru hodnoty X o u populace: z = (X[i] -- m) /s o u vzorku: z = (X[i] -- m) / s Z-skóry o podobně můžeme i z-skór převést na hrubý skór, známe-li průměr a směrodatnou odchylku o např. u stupnice IQ o m = 100, s = 15 o pro osobu se z=-3 (3 směrodatné odchylky pod průměrem) bude IQ ? X = Z * s + m X = -3 * 15 + 100 X = 55 Rozdělení z-skórů o tvar rozdělení z-skórů je stejný jako tvar původního rozdělení hrubých skórů o průměr je 0, směrodatná odchylka 1 o transformace změní jen označení hodnot na ose X Normální rozdělení o normální rozdělení je symetrické, unimodální, zvonovitého tvaru o označuje se i jako Gaussova křivka o 34.13% skórů spadá mezi průměr a 1 směr. odchylku o 13.59% hodnot spadá mezi 1. a 2. směr. odchylku o 2.28% hodnot spadá mezi 2. a 3. směr. odchylku Normální rozdělení o tabulka normálního rozdělení (z rozdělení) o důležitý nástroj, obvykle jako apendix v učebnicích statistiky (spolu s dalšími tabulkami) o umožňuje zjistit hustotu oblasti pod křivkou (tj. pravděpodobnost) pro jednotlivé z-skóry Normální rozdělení - příklady o postup při zjišťování pravděpodobnosti z tabulky: n načrtnout si normální rozdělení, s hodnotou průměru a směr. odch. n zakreslit hledanou hodnotu (v přibližné vzdálenosti od průměru), vystínovat hledanou oblast n převést hodnotu X na z-skór n najít v tabulce pravděpodobnost Normální rozdělení - příklady o Kolik procent osob z populace má IQ 130 nebo vyšší? (m = 100, s =15) otázku je možno formulovat i jako: o Jaká je pravděpodobnost, že náhodně vybraná osoba z populace bude mít IQ 130 nebo vyšší? (m = 100, s =15) o z = (130 -- 100)/15 o z = 2 o z tabulky z-rozdělení plyne, že p = 0.0228 tj. 2,3% Normální rozdělení - příklady o Jaká je pravděpodobnost, že náhodně vybraná osoba z populace bude mít IQ 85 nebo nižší? z = (100-85)/15 z = -1 o p = 0.5 -- 0.3413 = 0.1587 o tj. 15,9% Normální rozdělení - příklady o postup při zjišťování z-skóru z tabulky: n načrtnout si normální rozdělení n vystínovat oblast odpovídající zadané pravděpodobnosti n v tabulce vyhledat příslušný z-skór n vypočítat z něj hrubý skór Normální rozdělení - příklady o Jakou minimální hodnotu IQ musí člověk mít, aby patřil mezi 5% osob s nejvyššími hodnotami IQ? o p = 0.05 Normální rozdělení o z tabulky: z = 1.645 o X = (1.645)*(15) + 100 = 124.675 o musí mít IQ 124 bodů Normální rozdělení - příklady o pomocí tabulky normálního rozdělení je možno nalézt také hodnotu percentilu o příklad: kolik procent osob má nižší hodnoty IQ než člověk s IQ 130? o z= 2 o z tabulky: pro z = 2 p = 0.4772 (+ 50% pod průměrem) 97.72% osob má nižší skór než IQ 130 Rozdělení výběrových průměrů o cílem induktivní statistiky je odhadnout parametry populace z charakteristik vzorku (výběrového souboru) o např. odhadem průměru populace bude průměr vzorku o odhad je vždy zatížen určitou výběrovou chybou Rozdělení výběrových průměrů o předpokládejme, že z jedné populace vybereme 3 různé vzorky o budou se nejspíš navzájem lišit ve tvaru rozdělení hodnot, průměru i variabilitě o jak se rozhodneme, který z nich zvolit pro odhad průměru populace ?? Rozdělení výběrových průměrů o pokud bychom spočítali průměry ze všech možných výběrů o určité velikosti n, budou tvořit tzv. rozdělení výběrových průměrů (sampling distribution) Rozdělení výběrových průměrů o příklad: populace hodnot 2, 4, 6, 8 o průměr m = 5 o předpokládejme, že průměr neznáme a pokoušíme se ho odhadnout ze vzorku n=2 o v tabulce jsou uvedeny všechny možné výběrové soubory (v pořadí výběr, první skór, druhý skór, průměr vzorku) Tabulka: 1 2 2 2 2 2 4 3 3 2 6 4 4 2 8 5 5 4 2 3 6 4 4 4 7 4 6 5 8 4 8 6 9 6 2 4 10 6 4 5 11 6 6 6 12 6 8 7 13 8 2 5 14 8 4 6 15 8 6 7 16 8 8 8 o jaká je pravděpodobnost, že z této populace vybereme vzorek s průměrem vyšším než 7? o v rozdělení výběrových průměrů je takový vzorek jen 1 ze 16 -- tj. pravděpodobnost takového vzorku je 1/16 = 0.0625, tj. 6% o jaká je pravděpodobnost, že náhodně vybraný vzorek 2 čísel z této populace bude mít průměr roven průměru populace, tj. 5? o tato pravděpodobnost je 4/16, tj. 25% Rozdělení výběrových průměrů o většina populací i vzorků je mnohem větší o ale existují určité základní vlastnosti rozdělení výběrových průměrů (RVP) o tvar -- RVP se při dostatečně velkém vzorku (30 a více) blíží normálnímu rozdělení o průměr tohoto rozdělení (=průměr průměrů všech teoretických výběrů) je roven průměru populace o označuje se také jako očekávaná hodnota průměru vzorku o variabilita -- směrodatná odchylka RVP se označuje jako výběrová nebo standardní chyba průměru (standard error) o jde o směrodatnou odchylku výběrových průměrů od průměru populace o ukazuje, jak spolehlivý je odhad populačního průměru z průměru vzorku -- tj. jak velkou chybou je odhad zatížen o velikost výběrové chyby je dána dvěma charakteristikami: variabilitou v populaci a velikostí výběru o variabilita znaku v populaci: čím je vyšší, tím je vyšší i variabilita výběrových průměrů o velikost výběru -- čím větší výběr (n), tím méně průměrů výběrů se odchyluje od průměru populace (= výběrová chyba je menší) o vzorec pro výpočet směrodatné chyby: s[x] = s/ SQRTn tj. směrodatná odchylka populace děleno odmocninou z velikosti vzorku Rozdělení výběrových průměrů o platí zjednodušení tzv. centrálního limitního teorému -- pro každou populaci o průměru m a směrodatné odchylce s se bude rozdělení výběrových průměrů výběrů (pro rozsah výběru jdoucí do nekonečna) blížit normálnímu rozdělení s průměrem m a směrodatnou odchylkou s[x] = s/ SQRTn Rozdělení výběrových průměrů o příklad: když vybereme z populace náhodně vzorek 9 osob, jaká je pravděpodobnost, že jejich průměrné IQ bude větší nebo rovno 112? o ptáme se vlastně: jaká je pravděpodobnost, že vzorek 9 osob z populace o průměru 100 bude mít průměr 112 nebo vyšší? Kolik % je takových vzorků ze všech možných vzorků o této velikosti? o musíme zjistit charakteristiku rozdělení výběrových průměrů pro tuto velikost vzorku (N=9) u populace s m = 100, s= 15 o průměr RVP = 100 o směrodatná odchylka = standardní chyba: s[x] = s/ SQRTn = 15/3 = 5 o známe průměr a směrodatnou odchylku rozdělení, převedeme tedy skór 112 na z-skór o m = 100, s[x] = 5 o z = (112-100)/ s[x] = 12/5 = 2.4 o pak najdeme v tabulce z-rozdělení pravděpodobnost pro z=2.4 o z tabulky P(Z > 2.4) = 0.4918 o odečteme od 50% (celá jedna strana z-rozdělení) a vyjde nám pravděpodobnost: o p = 0.5000 -- 0.4918 = 0.0082 Kontrolní otázky o výpočet a především interpretace z-skórů o normální rozdělení -- charakteristiky o rozdělení výběrových průměrů o výpočet směrodatné chyby Literatura o Hendl: kapitoly 4 a 5