Štatistika je vedecký nástroj pre poznávanie objektívnej reality. je náuka ako získať informácie z numerických dát. je veda... Mgr. Martin Vaváček, PhD. •je veda, ktorej predmetom sú výsledky hromadných pozorovaní s cieľom: · získať dáta o skúmanom jave · analyzovať dáta použitím grafov a charakteristík štatistiky · odvodiť závery pre rozhodovanie, plánovanie respektíve prognózy, ŠTATISTICKA analýza dát –nutné zlo..??? 1. Deskriptívna štatistika 2. Vzťahy - Závislosti 3. Rozdiely 1. Deskriptívna štatistika • Základné pojmy, vzťahy a číselné charakteristiky •Aritmetický priemer Vážený aritmetický priemer • • • •Medián • MODUS a Smer.OD. •hromadný jav = jav, ktorý sa vyskytuje u veľkého množstva prvkov. tzv,. štatistických jednotiek; • štatistická jednotka = základný prvok - objekt pozorovania, na ktorom skúmame konkrétny prejav – vlastnosť určitého hromadného javu; •štatistický súbor = množina všetkých štatistických jednotiek, na ktorých sledujeme daný hromadný jav; •rozsah (veľkosť) súboru = je daný počtom jednotiek (prvkov), ktoré do neho patria; označenie n •znak (premenná) = vonkajšia merateľná vlastnosť štatistických jednotiek, ktoré tvoria súbor, označ. x, y, ...; sú variabilné - nadobúdajú rôzne hodnoty (údaje znaku) x1, x2,..., xn , preto sa nazývajú aj premenné; Softvéry: •Statgraphic •Unistat •Excel-rozšírený •Statistica •Príklady 1) Je daný súbor s diskrétnym znakom: 29 žiakov III. ročníka gymnázia s ich bodovým hodnotením písomnej práce z matematiky. •Počet bodov: xi •8,12,15,18 •Počet študentov: ni •8,14, 5, 2 • •mod(x) = 12, pretože hodnotenie 12 bodov sa vyskytuje najčastejšie. • med(x) je hodnotenie 15-eho žiaka v nasledujúcom usporiadaní 8,8,8,8,8,8,8,8,12,12,12,12,12,12,12,12,12,12,12,12,12,12,15,15,15,15,15,18,18 med(x) = 12 • aritmetický priemer je 11,8 , pretože (8x8+14x12+5x15+2x18)/(8+14+5+2)=343/29=11,8... • variačné rozpätie je 10, pretože 18-8=10. • • Relatívna početnost •rub.-lic mince Štandardizácia STREDNÁ CHYBA TESTU Standard error of measurement Desaťročný výskum 1975 -1984 motorických schopností 11- až 14-ročných detí (n 1553) MAN3 WOMAN5 _ Štatistické symboly: x s rxx´ sΔ KOMEŠTÍK aj. (1991) Poznámka: KOHOUTEK, MĚKOTA a KOVÁŘ (1990) střední chyba skoku z místa 5,3 cm normy •X, s •3,5,7stupňove Standardizácia Upraveno podle KOHOUTEK, MĚKOTA a KOVÄŘ (1998) Normalita súboru •Histogram, x, modus, median, •Shapiro-Wilk •Pearsonův test dobré shody •Tento test slouží k testování nulové hypotézy v •obecném tvaru: •-Náhodný výběr pochází z konkrétního rozdělení •-pravděpodobnosti s konkrétními parametry. • 2. Analýza dát- ROZDIELY • Úvodní poznámky • Alternativní hypotéza H1 (resp. HA) stojí proti nulové hypotéze a představuje porušení rovnovážného stavu. Rozlišujeme 3 typy alternativních hypotéz: alternativních hypotéz: – Levostranná alternativní hypotéza. – Pravostranná alternativní hypotéza. – Oboustranná alternativní hypotéza Příslušná alternativní hypotéza se volí na základě pozorování chování výběrového souboru. T test-(rozdiel priemerov) •Podle toho, jaká data (soubory) máme k dispozici, rozlišujeme několik variant t-testu •Parametrické vs. Neparametrické(nad 10?) •Otázka normality rozloženia súboru? •Závisle vs. Nezávislé •Párový vs. Nepárový Vyber, stav,čas •p- pravdepodobnost: nevýznamné • významné p 0,05 • veľmi významné p 0,01 nezávisle premenná → závisle premenná nový liek → vyliečenie športový tréning → rekord zvýšenie motivácie žiaka učiť sa → lepšie učebné výsledky Príklad •Pojem, . t-test pre nezávislé výbery je všeobecne používaná metóda na vyhodnotenie rozdielu v priemeroch dvoch skupín. Nap., t-test môže byť použitý na vyhodnotenie rozdielu v testovanej veličine medzi experimentálnou skupinou pacientov užívajúcich liek, a kontrolnou skupinou, ktorá obdržala iba placebo. Teoreticky je t-test možné použiť aj vo veľmi malých vzorkách (n=10, niektorí výskumníci tvrdia, že dokonca aj v menších), ak však je dodržaný predpoklad normálneho rozloženia v oboch skupinách, a rozptyly týchto skupín sa významne nelíšia. Normalita môže byť odhadnutá z histogramu, alebo vykonaním testu normality. Predpoklad zhodnosti rozptylu verifikujeme F testom, alebo použijeme robustnejšiu techniku, Levenov test. Ak tieto predpoklady nie sú splnené, použijeme neparametrickú alternatívu t-testu Mann-Whitneyov U test alebo Kolmogorov-Smirnov test. od témy k problému St. volnosti n 0,80 0,90 0,95 0,975 0,9875 0,995 1 1,376 3,078 6,314 12,706 25,452 63,657 2 1,061 1,886 2,920 4,303 6,205 9,925 3 0,978 1,638 2,353 3,182 4,176 5,841 4 ,941 1,533 2,132 2,776 3,495 4,604 5 ,920 1,476 2,015 2,571 3,163 4,032 Tab. Kvantily t1-α/2 (n) Studentova t rozdělení 3.Analýza dát VZŤAHY • Vztahy-korelacie-závislost •Test –retest . •Výška -hmotnosť http://www.wikiskripta.eu/images/thumb/1/1f/Regrese.png/300px-Regrese.png Pro měření síly závislosti se používá Pearsonův korelační koeficient ρ: dle obecných platností nabývá hodnot −1 až +1 je-li typ závislosti lineární, pak: nulová hodnota ρ – většinou vyjadřuje nezávislost veličin (může být roven 0 i když jsou veličiny funkčně závislé, ale tato závislost potom není lineární!) ρ větší než 0 – s rostoucími hodnotami jedné veličiny se zvyšují i hodnoty druhé (nebo obě klesají) ρ menší než 0 – s rostoucími hodnotami jedné veličiny klesají hodnoty druhé a naopak krajní hodnoty +1 a −1 ukazují na funkční závislost obou veličin Statistická závislost však nemusí znamenat kauzalitu! Neparametrické •Dvojrozmerná induktívna štatistika - intervalové premenné •Jednoduchá lineárna regresia, Pearsonov, korelačný koeficient •Párová regresná analýza skúma lineárnu závislosť medzi dvoma kvantitatívnymi premennými (napr. hmotnosťou a výškou človeka) a je špecifickým prípadom viacnásobnej regresie. Jednoduchá regresia odhaduje regresné koeficienty β0 a β1 v rovnici: •Spearmanova • Výška vs. Hmotnosť Regresná priamka R 0,80 p0,05 •Interpretácia korelačného koeficientu závisí od kontextu. Hodnota 0,8 pri overení fyzikálneho zákona použitím presných meracích prístrojov je veľmi nízka, v sociálnych vedách je však veľmi vysoká. Cohen (1988) vytvoril jednoduchú pomôcku pre interpretáciu korelačných koeficientov v psychologickom výskume: Korelácia (v absolútnej hodnote) pod 0,1 je triviálna, 0,1–0,3 malá, 0,3–0,5 stredná a nad 0,5 veľká. Nedostatečný rozsah výběru Nejjednodušší je v tomto případě provést dodatečná měření. Platí, že čím jsou data méně rozptýlená, tím menší počet jich stačí k zajištění dostatečné přesnosti odhadu. Pokud nelze provést dodatečné experimenty, je možné použít techniky vhodné pro malé výběry. Tento postup je vhodný zejména pro analýzu rutinních měření, kde jsou o chování dat předběžné informace. Když se analyzují výsledky nových měření nebo neznámé výběry, je vždy třeba začít průzkumovou analýzu dat a stanovit statistické zvláštnosti výběru. Standardizácia Príklad výpočtu stability testu OTÁZKA: Liší se výrazně tyto 2 množiny pořadí po 3. po 6. pokusu ? 2 změny ! R=0,91 rozdíl o < 12% 1) Jak proměnná “vypadá” ? 2) Souvisí jedno s druhým ? 3) Liší se jedno od druhého ? míry střední hodnoty míry rozptýlení Histogram četností 1) Jak proměnná “vypadá” ? ------------------------------------T-Tests------------------------------------ Date/Time 11 - 28 - 1999 16 : 33 : 51 Data Base Name C:\solo\dat\fit98\98zs-olz Description Data base created at 13:44:19 on 10 -14 -1998 Two Sample T-Test Results RUFF-PRE RUFF-PO Count - Mean 12 11.2 12 15.19167 95% C.L. of Mean 9.080987 13.31901 13.37835 17.00499 Std.Dev - Std.Error 3.337936 .9635792 2.856399 .8245714 Ho:Diff=0 ----- Equal Variances ---------- Unequal Variances ----- T Value-Prob(Lower) -3.147436 0.0023 -3.147436 0.0023 Degrees of Freedom 22 23.39351 Diff. - Std. Error -3.991667 1.268228 -3.991667 1.268228 95% C.L. of Diff. -6.621705 -1.361629 -6.61263 -1.370703 F-ratio testing group variances 1.365584 Prob. Level 0.6142 |6.9 95% Conf. Limit Plots 19.1| RUFF-PRE | <---------a---------> | RUFF-PO | <--------a-------> | |6.9 Line Plots 19.1| RUFF-PRE | 1.. .1. .1. ..2. ..1 .1. .1.… ......1. ...1. ......1 .1.. .........| RUFF-PO | ..................1. .2… .......1. . ..1 .2.. . ...1.. .1 1. 1. ..1| Počty - Průměry Směrodatné odchylky - chyby Hodnoty t-testu Hladina alfa Stupně volnosti Hodnota F-test Hladina alfa Rozpětí veličin Rozložení hodnot veličin 3) Liší se jedno od druhého ? bb1 Boardbalancedeti Rovnováhové schopnosti Statické RSCH Dynamické RSCH Balansovanie s predmetom RSCH NORMALITA výsledkov –faktor času n=91 počet chýb výška (cm) hmotnosť (kg) test (chyby) retest (chyby) arit. priem. 169,72 78,21 5,67 6,01 smer. od. 5,160 7,295 4,17 4,19 median 168 75,00 3,89 4,12 min. 163 65,00 1,39 1,26 max. 198 92,00 85,30 93,28 var.rozp. 35 27,00 15 16 t - test 1,091 závislosti výška hmotnosť test retest výška 1 hmotnosť 0,58** 1 test 1 retest 0,69** 1 ** p<0,01; * p < 0,05 teste na doske Balance Master Board- (s) NORMALITA výsledkov –faktor času do 10s. vek (roky) 10 11 12 13 14 15 dievčatá r(stab) 0,77 0,69 0,65 0,68 0,61 0,62 chlapci r(stab) 0,68 0,64 0,52 0,74 0,68 0,61 Reliabilita v teste RSCH na doske Balance Master Board- faktor času BALANCMASTERNEW.jpg Zmena Paradigmy n=91 počet chýb výška (cm) hmotnosť (kg) test (chyby) retest (chyby) arit. priem. 169,72 78,21 5 6 smer. od. 5,160 7,295 1,87 2,17 median 168 75,00 6 7 min. 163 65,00 0 0 max. 198 92,00 15 16 var.rozp. 35 27,00 15 16 t - test 1,091 závislosti výška hmotnosť test retest výška 1 hmotnosť 0,58** 1 test 0,14 0,09 1 retest 0,03 0,14 0,89** 1 ** p<0,01; * p < 0,05 Príklad zmeny reliability pri teste na doske Balance Master Board-počet chýb za 1 min. life time. > r 0,70 > r 0,80 > r 0,50 ZÁVER Hypotéza  Domněnka, předpoklad  Nejčastěji o rozdělení, středních hodnotách, závislostech,... Hypotézy ve vědeckém výzkumu  pracovní, věcné hypotézy – výzkumné otázky v kvalitativních šetřeních)  statistické hypotézy – nulové hypotézy – alternativní hypotézy Postup při ověřování hypotéz  Formulace nulové a statistické hypotézy  Volba hladiny významnosti  Volba vhodného testového kritéria  Výpočet testového kritéria  Nalezení příslušné kritické hodnoty  Porovnání výsledek testu s kritickou hodnotou - závěr 1. Vytvoření hypotéz Ho : Neexistuje vztah mezi dobou nemoci braním léků. HA : Rozdíly nejsou způsobeny náhodou a existuje závislost mezi dobu nemoci a braním léků.  2. Stanovení hladiny významnosti  3. Volba vhodného testového kritéria(n –podľa tabulky)  4. Výpočet testového kritéria \begin{figure} \centering \fbox{\includegraphics[clip, width=\sirka]{eps/obr2_1.eps}}\end{figure} Obecné schéma dílčích stadií výzkumného projektu