Metodologie ISK Základy statistického zpracování dat Ladislava Suchá, 28. dubna 2011 Page  ‹#› Programy na statistické zpracování dat http://www.vit.ac.in/events2009/SCSE/dmw/images/es_logo-spss1.gif http://www.statsoft.co.uk/images/v9main.jpg R logo [X] Microsoft-Excel-2007-Logo.png exel image by moh_anto Page  ‹#› Aplikace na online dotazování, které zvládají nějkteré základní i složitější statistické operace http://www.workline.cz/Portals/3/Grafika/katalogfotografieloga/easy_research_biz/logo_easyresearch_ biz.gif Survs Logo http://files.plagiarismtoday.com/wp-content/uploads/2009/01/polldaddy-logo.png http://memberwise.org/images/zoomerang_logo75.gif http://2ukltd.com/internet-marketing-blog/wp-content/uploads/2010/03/survey-monkey-logo.jpg http://doctor-shop.com/images/images/surveygizmo-logo-250.jpg Page  ‹#› Fáze vyhodnocování dat •Kódování •Třídění prvního stupně •(Úpravy znaků) •Třídění druhého stupně Page  ‹#› Kódování •Jednotlivým variantám znaku jsou přiřazovány symboly (čísla) podle kódovacího čísla •Kódování často probíhá přímo v terénu nebo ho provádí aplikace • Zápis do matice dat: •Jednotlivé případy = řádky •Jednotlivé proměnné = sloupce Page  ‹#› Druhy proměnných Nominální •Známe hodnoty, ale můžeme o nich říci pouze to, že jsou různé •Nelze provádět aritmetické operace •Přiřazení znaku je symbolické Pořadové •Můžeme určit pořadí (vzdělání, spokojenost) •Znaky = míra pořadovosti Kardinální (intervalové, spojité) •Můžeme říci, o kolik je jedna hodnota vyšší než druhá (měsíční příjem, počet dětí v domácnosti atd.) •Přiřazení znaku = reálné číslo Page  ‹#› Otázka v dotazníku a její zpracování 2. Považujete obor Informační studia a knihovnictví za perspektivní? velmi perspektivní 1 spíše perspektivní 2 spíše neperspektivní 3 zcela neperspektivní 4 nevím, nemohu odpovědět -1 neodpověděl/a -2 Chybějící hodnoty (missing values) Zapisujeme jako „value labels“ Hodnoty proměnné Page  ‹#› Ukázka – zahrnutí missing values (chyba) Page  ‹#› SPSS.JPG Q1_prinos Studium na KISK hodnotím jako: 1 velmi přínosné 2 spíše přínosné 3 spíše nepřínosné 4 zcela nepřínosné -1 nevím / nemohu odpovědět -2 Neodpověděl/a Případy (cases) Q8_1 Povinné (A) kurzy mají logickou časovou posloupnost. Q8_2 Obsahy jednotlivých povinných (A) kurzů se nepřekrývají. Q8_3 Jsem spokojen/a s tematickou šíří nabídky povinně volitelných (B) kurzů. Q8_4 Jsem spokojen/a s počtem nabízených povinně volitelných (B) kurzů. Page  ‹#› Definování proměnných SPSS2.JPG Druh proměnné Zápis baterie otázek Page  ‹#› Třídění prvního stupně •Sleduje se četnost výskytu jednotlivého znaku •Kolik je v souboru mužů a žen •Kolik je v souboru lidí, kteří chodí do knihovny atd… • •Sledujeme základní statistické míry znaků Page  ‹#› Třídění prvního stupně Absolutní četnosti -Absolutní číslo – kolik případů má danou vlastnost -Součet absolutních četností u všech hodnot (včetně missing values) = celkový počet respondentů (V souboru je 71 žen.) Relativní četnosti -Jaký podíl (v procentech z výběrového souboru) představují případy s jednotlivou vlastností (V souboru je 34 % osob se středoškolským vzděláním.) Kumulativní relativní četnosti (V souboru je 52 % osob s alespoň středoškolským vzděláním.) Page  ‹#› Rozložení hodnot proměnných Relativní četnosti bez „missing values“ Page  ‹#› Zobrazování výsledků Koláčové, sloupcové grafy graf_1.jpg Page  ‹#› Zobrazování výsledků Koláčové, sloupcové grafy Page  ‹#› Deskriptvní statistika a čištění dat •První krok při každém zpracování dat •„GIGO“ (Garbage in, garbage out) • •Outliers (extrémní hodnoty) •Podíváme se na nejvyšší a nejnižší hodnoty •(SPSS najde automaticky) • • • • • Zdroje obrázků: Psychwiki, www.ibm.com http://www.psychwiki.com/images/thumb/e/ed/Sexpartners_histogram0.png/400px-Sexpartners_histogram0. png http://www.psychwiki.com/images/thumb/2/23/System1_boxplot0.png/400px-System1_boxplot0.png http://www.ibm.com/developerworks/rational/library/content/images/catpulse/public/image/graphic/573 9_1397_fig1.jpg Page  ‹#› Charakteristiky rozložení proměnné: modus, medián, průměr MODUS •U nominálních proměnných •Nejčastěji obsazená kategorie/hodnota proměnné • MEDIÁN •U nominálních a ordinálních (pořadových) proměnných •Nejméně 50 % hodnot je menších nebo rovno mediánu a nejméně 50 % hodnot je větších nebo rovných mediánu •Není ovlivněn extrémními hodnotami •Pokud má soubor sudý počet prvků, dvě varianty (rozdílný výklad): •za medián označuje aritmetický průměr hodnot na místech n/2 a n/2+1 •Medián nelze určit Page  ‹#› Charakteristiky rozložení proměnné: modus, medián, průměr •Medián = kvantil •Kvartil •Decil •Percentil http://t2.gstatic.com/images?q=tbn:ANd9GcRdxzkALToJ7YsjAF8VMpq4VOi0iRspnou8927vbd_lC5VORoywGA&t=1 Page  ‹#› Charakteristiky rozložení proměnné: modus, medián, průměr ARITMETICKÝ PRŮMĚR •Citlivý na extrémní hodnoty •Aplikovatelná jen u kardinálních znaků •Často udává hodnotu, která se v souboru vůbec nevyskytuje •(průměrný Čech navštíví knihovnu 1,12krát za rok) • •Kardinální znaky – nemá cenu vytvářet frekvenční tabulku nebo klasické grafy – využívá se histogram • Page  ‹#› Normální rozložení •Normální rozložení: modus = medián = průměr •Asymetrie rozložení = šikmost http://upload.wikimedia.org/wikipedia/commons/thumb/8/8c/Standard_deviation_diagram.svg/310px-Stand ard_deviation_diagram.svg.png Page  ‹#› Ukázka šikmého rozložení Rozdělení mezd v roce 2002 Page  ‹#› Ukázka šikmého rozložení \begin{figure} \centering \fbox{\includegraphics[clip, width=\sirka]{eps/g2.eps}}\end{figure} Page  ‹#› Rozložení u kardinálních dat Rozpětí: rozdíl mezi nejmenší a nejvyšší hodnotou Rozptyl: vypovídá o rozložení hodnot kolem aritmetického průměru (průměrná čtvercová chyba (ve čtvercích jednotek původní proměnné) – součet druhých mocnin odchylek všech jednotlivých hodnot od průměru dělený rozsahem souboru Směrodatná odchylka: •Druhá odmocnina rozptylu •ukazuje homogenitu/variabilitu souboru •čím menší SO je, tím více můžeme věřit aritmetickému průměru s^2=\frac{1}{n-1}\sum_{i=1}^n (x_i-\overline{x})^2 Page  ‹#› Průměr a standardní odchylka Page  ‹#› Transformace dat a proměnných •Kategorizace spojitých proměnných (CATEGORIZE) à vytvoření intervalů Otázka: Proč je důležité rekategorizovat proměnné? • •Slučování kategorií (spíše spokojen – velice spokojen = spokojen) Otázka: Kdy je vhodné slučovat proměnné? Otázka: Lze slučovat i nominální proměnné? •COUNT – vytváří novou proměnnou (pro sady otázek – kolik z nabízených možností respondent zvolil) http://t0.gstatic.com/images?q=tbn:vc7Ils4fA6u57M:http://www.knotjustjigs.co.uk/images/abacus-count ing-frame-wooden-beads.gif Page  ‹#› Připomeňme si… Hypotéza proměnné otázky v dotazníku Hypotéza: Lidé s vyšším vzděláním navštěvují knihovny častěji, než lidé s nižším vzděláním. Proměnné: vzdělání, frekvence návštěv knihovny Otázky: •Jaké je Vaše nejvyšší ukončené vzdělání? •Jak často navštěvujete knihovnu? Page  ‹#› Třídění druhého stupně •Porovnání rozložení znaku v podsouborech populace (dle jiného znaku) •Hypotézy nás vedou v tom, jaké vlastnosti a jejich souvislosti sledovat Kdy to má smysl: •Jedná-li se o reprezentativní výběrový soubor (ideálně náhodný výběr) •Jde-li o nezávislý výběr Page  ‹#› Jak statistika vypovídá o základním souboru? Hlavní roli hraje směrodatná odchylka / výběrová chyba: S 95% jistotou (5% riziko chyby) můžeme tvrdit, že: průměr základního souboru (parametr) = průměr výběrového souboru (statistika) ± 2 směrodatné chyby S 99% jistotou (1% riziko chyby) můžeme tvrdit, že: průměr základního souboru (parametr) = průměr výběrového souboru (statistika) ± 3 směrodatné chyby Page  ‹#› Statistické testování hypotéz 1.Testování nulové hypotézy o neexistenci vztahu mezi proměnnými 2.Hypotéza zamítnuta à testování alternativní hypotézy Příklad nulové hypotézy: Rozložení četností hodnot proměnné (vlastností jednotky), např. příjmu, věku, míry anomie, spokojenosti v životě (atd.) ve výběrovém souboru odpovídá rozložení proměnné v populaci. Mezi vzděláním a výší příjmu není žádný vztah. Page  ‹#› Testy pro statistické testování nulových hypotéz •T-test o shodě dvou průměrů (parametrický test) •Man-Whitney test (neparametrický test) • • Zlaté pravidlo pro induktivní statistiku: vysoká hodnota testu signifikance (tj. a > 0,05) à držíme nulovou hypotézu nízká hodnota testu signifikance (tj. a £ 0,05) à zamítáme nulovou hypotézu Page  ‹#› Porovnávání průměrů Směrodatná odchylka u normálního rozložení: • 68 % případů < 1 směrodatná odchylka • 95 % případů < 2 směrodatné odchylky • 99 % případů < 3 směrodatné odchylky Page  ‹#› Tabulky rozložení Page  ‹#› Grafy graf_6.jpg