Diagram Description automatically generated Logika kvantitativního výzkumu POLb1006 Jak zkoumat politiku Jakub Jusko Podzim 2022 KVANTI VÝZKUM •Pracuje s fakty a ověřitelnými informacemi •Dá se verifikovat (a často i replikovat) •Výsledky se dají použít v praxi • • •ALE někdy těžké na pochopení, možná subjektivita, $ • • • Výzkumná otázka formulace hypotéz operacionalizace proměnné/sběr dát/měření analýza dat / testování hypotéz prezentace výsledků interpretace a závěry VÝZKUMNÝ PROCES STATISTIKA JAKO NÁSTROJ ... • ... na zodpovězení výzkumné otázky • •Sama o sobě nestačí! • - kvalita výstupů závisí na kvalitě vstupů • - kvalitní výzkumný dizajn, korektní měření (kvalitní data), ... • - správné pochopení výsledků, jejich interpretace a reportování • •Co však můžeme získat? • - překonání problémů s kauzalitou • („kauzální překážky“) • - na základě malého vzorku usuzovat o celé populaci • • NEŽ ZAČNEME ANALYZOVAT… •potřebujeme data - nevyhnutné pro testování hypotéz • •OTÁZKA: 1) co měřit? »závislá vs. nezávislá proměnná (?) • • 2) jak měřit? • ÚROVEŇ MĚŘENÍ •„level of measurement“ • •úroveň měření : –určuje povahu a množství informací, které proměnná obsahuje –ovlivňuje způsob, jakým data analyzujeme a interpretujeme –definuje typ proměnné • • ÚROVEŇ MĚŘENÍ|Typy proměnných •základné rozdělení: • • NOMINÁLNÍ (nominal) ORDINÁLNÍ (ordinal) INTERVALOVÉ (interval) POMEROVÉ (ratio) } kategorické, kvalitativní } kontinuální, kvantitativní, kardinální ÚROVEŇ MĚŘENÍ|Nominální proměnné •kvalitativní odlišení (klasifikace) naměřených hodnot – označení vzájemně oddělených kategorií, názvy objektů •naměřené hodnoty můžeme zařadit do určité NEnumerické kategorie, ale nemůžeme je mezi sebou kvantitativně porovnávat /řadit •např. národnost, kraj v ČR, příslušnost poslance k pol. straně, pohlaví, barva očí, ... •nepracujeme s nimi kvantitativním způsobem, neumožňují matematické operace – ALE! •(=, ≠, <, >, +, -, *, /) •příklad z exit pollu (?) • ÚROVEŇ MĚŘENÍ|Ordinální proměnné •stejně jako nominal. označují kategorie •rozdíl oproti nominal.: hodnoty můžou být seřazené (podle určité charakteristiky) •nevíme však „o kolik“ nebo „kolik krát“ je daná hodnota větší/menší jako jiná •Např. míra spokojenosti (1. velmi spokojený, 2. spokojený, 3. nespokojený), závěrečné hodnocení kurzu (A, B, C, D, E, F), ... • •příklad z exit pollu (?) • ÚROVEŇ MĚŘENÍ|Intervalové proměnné •Umíme seřadit, na rozdíl od ordinální můžeme u intervalové proměnné vypočítat i „o kolik“ je jedna hodnota větší/menší jako druhá •hodnotami jsou čísla, při kterých poznáme jednotku měření, a vzdálenost mezi jednotlivými možnými hodnotami měření (použité škály) je stejná •nemají přirozenou absolutní nulu (nula neznamená absenci měřené veličiny, je to jen arbitrárně učený bod na škále) •Např. rok narození (letopočet), teplota ovzduší, ... • • •příklad z exit pollu (?) ÚROVEŇ MĚŘENÍ|Poměrové proměnné •stejné vlastnosti jako intervalová + absolutní nula •„nula“ – skutečná absence měřené vlastnosti •nejvyšší informační hodnota •všechny matematické operace (=, ≠, <, >, +, -, *, /) •např. počet bodů ze zkoušky, finance vynaložené na předvolební kampaň ... •příklad z exit pollu (?) • • • • NOMINÁLNÍ ORDINÁLNÍ INTERVALOVÉ POMĚROVÉ ÚROVEŇ MĚŘENÍ |Test • • ordinální nominální počet úderov za minútu poměrová intervalová ÚROVEŇ MĚŘENÍ | Proč je to důležité? •důležité rozlišovat mezi úrovněmi měření/typy proměnných -> různé typy proměnných -> různé statistické operace •čím vyšší úroveň, tým lepší • •konverze • • intervalová/poměrová ordinální nominální X ÚROVEŇ MĚŘENÍ | Konverze • • věk v letech: 16, 20, 31, 49, 52 typ proměnné ? POMEROVÁ ORDINÁLNÍ ? NOMINÁLNÍ ? ÚROVEŇ MĚŘENÍ | Konverze • • věk v letech: 16, 20, 31, 49, 52 typ proměnné ? POMEROVÁ ORDINÁLNA ? NOMINÁLNA ? <20, 20-30, 31-40, 41-50, >50 •adolescenti •dospievajúci •mladí Docházka > DATOVÁ MATICE sloupce = hodnoty proměnné řádky = jednotlivé případy DATOVÁ MATICE sloupce = hodnoty proměnné řádky = jednotlivé případy DATOVÁ MATICE vs. Tabulka řádky = jednotlivé případy Obrázok, na ktorom je stôl Automaticky generovaný popis DATOVÁ MATICE vs. Tabulka Obrázok, na ktorom je stôl Automaticky generovaný popis ANALÝZA DAT – • • Related image FREKVENCE VÝSKYTU •grafické znázornění rozložení hodnot proměnné (trend) •histogram – • • normální rozložení výška žien FREKVENCE VÝSKYTU •grafické znázornění rozložení hodnot proměnné (trend) •histogram – • • FREKVENCE VÝSKYTU •zešikmené rozložení – • • STŘEDNÍ HODNOTY •základní charakteristika dat, typická hodnota dané proměnné •koncentrace informací do jednoho čísla –+ jednoduchý výpočet –+ rychlá základní informace o rozložení dat proměnné –- příliš zjednodušující –- citlivost na extrémní hodnoty – • • STŘEDNÍ HODNOTY –MODUS •nejčastější hodnota dané proměnné – – –MEDIÁN •prostřední hodnota dané proměnné – – –PRIEMER •součet hodnot vydělený počtem hodnot • • 13, 18, 13, 14, 13, 16, 14, 21, 13 13, 18, 13, 14, 13, 16, 14, 21, 13 13, 18, 13, 14, 13, 16, 14, 21, 13 13, 13, 13, 13, 14, 14, 16, 18, 21 NOMINÁLNÍ: - modus ORDINÁLNÍ: - modus - medián INTERVALOVÉ: - modus - medián - průměr POMEROVÉ: - modus - medián - průměr STŘEDNÍ HODNOTY| Průměr •velmi citlivý na extrémní hodnoty •nemá smysl při asymetrickém rozložení dát •může poskytovat informaci, která nedopovídá skutečnosti (!) • • –PRÍKLAD •hodnocení úspěšnosti určité terapie •20 pacientů přežilo měsíc, 1 pacient přežil 30 let (?) •Průměr dožití = 18 měsíců (1,5) – • – – – – • • STŘEDNÍ HODNOTY| Průměr – • – – – – • • Jedinec Muži (počet pív) Ženy (počet pív) Jedinec č. 1 Jedinec č. 2 Jedinec č. 3 Jedinec č. 4 Jedinec č. 5 Súčet: Aritmetický priemer: 40 8 40 8 Jedinec Muži (počet piv) Ženy (počet piv) Jedinec č. 1 8 0 Jedinec č. 2 8 0 Jedinec č. 3 8 0 Jedinec č. 4 8 0 Jedinec č. 5 8 40 Součet: Aritmetický průměr: 40 8 40 8 - Průměr počtu vypitých piv za jeden týden STŘEDNÍ HODNOTY vs. FREKVENCE VÝSKYTU •Příjem za měsíc – –jedinec č.1: 17 000,- Kč –jedinec č. 2: 18 000,- Kč –jedinec č. 3: 18 000,- Kč –jedinec č. 4: 19 000,- Kč –jedinec č. 5: 19 000,- Kč –jedinec č. 6: 19 000,- Kč –jedinec č. 7: 20 000,- Kč –jedinec č. 8: 20 000,- Kč –jedinec č. 9: 21 000,- Kč –Průměr: 19 000,- Kč –MODUS: 19 000,- Kč –MEDIÁN: 19 000,- Kč jedinec č.1: 17 000,- Kč jedinec č. 2: 18 000,- Kč jedinec č. 3: 18 000,- Kč jedinec č. 4: 19 000,- Kč jedinec č. 5: 19 000,- Kč jedinec č. 6: 19 000,- Kč jedinec č. 7: 20 000,- Kč jedinec č. 8: 20 000,- Kč jedinec č. 9: 21 000,- Kč jedinec č. 10: 50 000,- Kč jedinec č. 11: 100 000.- Kč Průměr: 29 200,- Kč MODUS: 19 000,- Kč MEDIÁN: 19 000,- Kč • • rozložení/histogram? STŘEDNÍ HODNOTY vs. FREKVENCE VÝSKYTU •někdy vhodné využít statistiky nižší úrovně (modus, medián) •POZOR na homogenitu vzorku, VARIABILITU dat (rozložení hodnot proměnné) zdroj: ISPV.cz 187 cm 163 cm 165 cm 196 cm 185 cm 187 cm 163 cm 165 cm 196 cm 185 cm 187 cm 163 cm 165 cm 196 cm 185 cm 16,8 7,8 5,8 -14,2 -16,2 187 cm 163 cm 165 cm 196 cm 185 cm 16,8 7,8 5,8 -14,2 -16,2 187 cm 163 cm 165 cm 196 cm 185 cm 193 cm 164 cm VARIABILITA •Na co je to dobré? •vzájemné porovnaní dvou vzorek (směrodatná odchylka) • • – – – • • OD POPISOVÁNÍ K VYVOZOVÁNÍ populace vs. vzorek OD POPISOVÁNÍ K VYVOZOVÁNÍ •DESKRIPTIVNÍ STATISTIKA •INFERENČNÍ STATISTIKA – „statistics used to draw conclusions about significant relationships between variables“ • •sociální vědy → zjištění založené na vzorkách → snaha o generalizaci na celou populaci •máme pod kontrolou všechny intervenující proměnné? •skutečně naše měření odpovídá konceptu? • •výsledky jsou doprovázeny nejistotou • OD POPISOVÁNÍ K VYVOZOVÁNÍ • •interval spolehlivosti – interval, ve kterém skutečná hodnota dané charakteristiky leží s určitou pravděpodobností (95%) • •změříme-li 100 nezávislých datových souborů, na nichž odhadujeme neznámý parametr intervalem spolehlivosti, tak zhruba 95 intervalů bude hledaný parametr obsahovat a zhruba pět nikoli • •Př: výška 40 náhodně vybraných politiků –průměr: 175 cm –směrodatná odchylka: 20 cm • • skutečná průměrná výška všech politiků INTERVAL SPOLEHLIVOSTI •exit poll – Magistrát Brno 2018 INTERVAL SPOLEHLIVOSTI •exit poll – Magistrát Brno 2018 malé rozdiely nie sú významné INTERVAL SPOLEHLIVOSTI •reálné výsledky – Magistrát Brno 2018 • VZTAHY MEZI PROMĚNNÝMI VZTAHY MEZI PROMĚNNÝMI •dvojrozměrná analýza – vztahy mezi dvěma proměnnými •kontingenční tabulka (crosstabs) – základná vizualizace vztahu dvou statistických znaku (hodí se hlavně pro kategorické proměnné s malým množstvím kategorií) •nerozlišujeme mezi závislou a nezávislou p. • • řádky = hodnoty prvého znaku/proměnné (pohlaví) sloupce = hodnoty druhého znaku/proměnné (dominantní ruka) VZTAHY MEZI PROMĚNNÝMI •typický brněnský volič ANO ? • • VZTAHY MEZI PROMĚNNÝMI •typický brněnský volič ANO ? • • VZTAHY MEZI PROMĚNNÝMI •typický brněnský volič ANO ? • • VZTAHY MEZI PROMĚNNÝMI •typický brněnský volič ANO ? • • VZTAHY MEZI PROMĚNNÝMI •kontingenční tabulka nám ale neřekne nic o (síle) vztahu • •existuje korelace? proměnné spolu souvisí? –statistický ukazovatel vztahu mezi 2 proměnnými –změny v jedné proměnné jsou doprovázeny změnami v druhé proměnné –vzájemná asociace mezi proměnnými je lineární – – •korelační koeficient (r) •– sila a směr vztahu •– hodnoty <-1,1>, 0 = absence vztahu • • • • • • • • – – • • čas strávený přípravou na zkoušku VZTAHY MEZI PROMĚNNÝMI •korelační koeficient • • • • • • • • – – • • [USEMAP] VZTAHY MEZI PROMĚNNÝMI •korelace není kauzalita! ... korelace neznamená, že jedna věc ovlivňuje druhou (můžou existovat jiné důvody vzájemné korelace). •závislá a nezávislá proměnná VZTAHY MEZI PROMĚNNÝMI •závislost 2 a více proměnných → regrese •vplyv nezávislé X na závislou Y •predikce čas strávený prípravou na skúšku VZTAHY MEZI PROMĚNNÝMI •lineární regrese –závislá proměnná musí byť kardinální (intervalová, poměrová) – –příklad: –Co může ovlivňovat čas strávený denně na internete? – –Regresní model –data: European Social Survey 2016 vysvětlovací sila modelu statistická významnost p < 0,05 regresní koeficient VIZUALIZACE DAT VIZUALIZACE DAT •prezentace výstupů •posouzení charakteru dat •ulehčuje porozumět analýzám •„jeden obrázek řekne víc než tisíc slov“ •graf -> příběh •velmi silný nástroj • • • – – – • • VIZUALIZACE DAT - úlohy •Definujte svoje publikum •Vytvořte správu, kterou chcete komunikovat •Definujte povahu správy • • • • • • • • • •United nations economic commission for europe – „Making data meaningful“ • • – – – • • Obrázok, na ktorom je text Automaticky generovaný popis Výber typu grafu Obrázok, na ktorom je text, snímka obrazovky, galéria Automaticky generovaný popis Obrázok, na ktorom je galéria, snímka obrazovky, miestnosť Automaticky generovaný popis Jasná message? Zbytečnosti? Zbytečnosti? Zjednodušující? Zjednodušující? Kognitivně náročný? VIZUALIZACE DAT •i jemná změna může mít zásadní dopad • •Nejčastěji: •chybějící východiskový bod – posunutá Y-os •dvě Y-osi v jednom grafu •vynechané osy a jejich popisy •chybně nakreslený graf • prettyplotlib: Painlessly create beautiful matplotlib plots Výkazy práce v Excelu? Jde to i lépe, zkuste IS Helios Orange Python & Django Development - LogiCore Tech - Professional Services IBM SPSS Statistics Base for Windows - Download it from Uptodown for free 2017 2022