Logika kvantitatívneho výskumu POL181 Metodologie politologie POLb1006 Jak zkoumat politiku Michal Tóth podzim 2019 výskumná otázka hypotézy operacionalizáciapremenné/zber  dát/meranie (štatistická) analýza dát prezentácia  výsledkov interpretácie a  závery VÝSKUMNÝ PROCES ŠTATISTIKA AKO NÁSTROJ ... ... na zodpovedanie výskumnej otázky Sama o sebe nestačí! ‐ kvalita výstupov závisí na kvalite vstupov  ‐ kvalitný výskumný dizajn, korektné meranie (kvalitné dáta), ... ‐ správne pochopenie výsledkov, ich interpretácia a reportovanie Čo však môžme získať? ‐ prekonanie problémov s kauzalitou (tretia a štvrtá „kauzálna překážka“) ‐ na základe malého vzorku usudzovať o celej populácii NEŽ ZAČNEME ANALYZOVAŤ… • potrebujeme dáta ‐ nevyhnutné pre testovanie  hypotéz • OTÁZKA:  1) čo merať? » závislá vs. nezávislá premenná (?) 2) ako merať? ÚROVEŇ MERANIA • „level of measurement“ • úroveň merania : – určuje povahu a množstvo informácií, ktoré premenná obsahuje – ovplyvňuje spôsob akým dáta analyzujeme a  interpretujeme – definuje typ premennej ÚROVEŇ MERANIA |Typy premenných • základné rozdelenie: NOMINÁLNE (nominal)    ORDINÁLNE (ordinal)    INTERVALOVÉ (interval)    POMEROVÉ (ratio) } kategorické, kvalitatívne } kontinuálne, kvantitatívne, kardinálne ÚROVEŇ MERANIA |Nominálne premenné • kvalitatívne odlíšenie/klasifikácia nameraných hodnôt – označenie vzájomne oddelených kategórií, názvov  objektov • namerané hodnoty môžeme zaradiť do určitej  NEmumerickej kategórie, ale nemôžeme ich medzi sebou  kvantitatívne porovnávať /zoraďovať • napr. národnosť, kraj v ČR, príslušnosť poslanca k pol.  strane, pohlavie, farba očí, ... • nepracujeme s nimi kvantitatívnom spôsobom,  neumožňujú matematické operácie – výnimka (?) (=, ≠, <, >, +, ‐, *, /) • príklad z exit pollu (?) ÚROVEŇ MERANIA |Ordinálne premenné • rovnako ako nominal. označujú kategórie • rozdiel oproti nominal.: hodnoty môžu byť zoradené (podľa  určitej charakteristiky) • nevieme však „o koľko“ alebo „koľko krát“ je daná hodnota  väčšia/menšia ako iná  • napr. miera spokojnosti (1. veľmi spokojný, 2. spokojný, 3.  nespokojný), záverečné hodnotenie kurzu POL181 (A, B, C, D, E,  F), ... • len niektoré matematické operácie  ‐ ktoré (?)  (=, ≠, <, >, +, ‐, *, /) • príklad z exit pollu (?) ÚROVEŇ MERANIA |Intervalové premenné • na rozdiel od ordinálnej môžeme u intervalovej premennej vypočítať aj  „o koľko“ je jedna hodnota väčšia/menšia ako druhá • hodnotami sú čísla, pri ktorých poznáme jednotku merania, a vzdialenosť  medzi jednotlivými možnými hodnotami merania (použitej škály) je  rovnaká • nemajú prirodzenú absolútnu nulu (nula neznamená absenciu meranej  veličiny, je to len arbitrárne učený bod na škále) • napr. rok narodenia (letopočet), teplota ovzdušia, ... • možné matematické operácie (?) (=, ≠, <, >, +, ‐, *, /) • príklad z exit pollu (?) ÚROVEŇ MERANIA |Pomerové premenné • rovnaké vlastnosti ako intervalová + absolútna nula • „nula“ – skutočná absencia meranej vlastnosti • najvyššia informačná hodnota • všetky matematické operácie (=, ≠, <, >, +, ‐, *, /) • napr. počet bodov zo skúšky, počet hlasov, ktoré strana  získala vo voľbách, financie vynaložené na  predvolebnú kampaň ... • príklad z exit pollu (?) NOMINÁLNE ORDINÁLNE INTERVALOVÉ POMEROVÉ ÚROVEŇ MERANIA |Test ordinálna nominálna počet úderov za minútu pomerová intervalová ÚROVEŇ MERANIA | Prečo je to dôležité? • dôležité rozlišovať medzi úrovňami merania/typmi premenných ‐> rôzne typy premenných rôzne štatistické operácie • čim vyššia úroveň, tým lepšie • konverzia intervalová/pomerováordinálnanominálna X ÚROVEŇ MERANIA | Konverzia vek v rokoch: 16, 20, 31, 49, 52 typ premennej ? POMEROVÁ ORDINÁLNA ? NOMINÁLNA ? <20, 20‐30, 31‐40, 41‐50, >50 • mladiství • dospelí • seniori DATOVÁ MATICA stĺpce = hodnoty  premennej riadky = jednotlivé  prípady DATOVÁ MATICA stĺpce = hodnoty  premennej riadky = jednotlivé  prípady ANALÝZA DÁT FREKVENCIA VÝSKYTU • grafické znázornenie rozloženia hodnôt premennej (trend) • histogram normálne  rozloženie výška žien počet žien FREKVENCIA VÝSKYTU • grafické znázornenie rozloženia hodnôt premennej (trend) • histogram FREKVENCIA VÝSKYTU • zošikmené rozloženie ? ? STREDNÉ HODNOTY • základná charakteristiku dát, typická hodnota danej  premennej • koncentrácia informácii do jedného čísla + jednoduchý výpočet + rýchla základná informácia o rozložení dát premennej ‐ príliš zjednodušujúce ‐ citlivosť na extrémne hodnoty  STREDNÉ HODNOTY MODUS • najčastejšia hodnota danej premennej MEDIÁN • prostredná hodnota danej premennej PRIEMER • súčet hodnôt vydelený počtom hodnôt  13, 18, 13, 14, 13, 16, 14, 21, 1313, 18, 13, 14, 13, 16, 14, 21, 13 13, 18, 13, 14, 13, 16, 14, 21, 1313, 13, 13, 13, 14, 14, 16, 18, 21 NOMINÁLNE: ‐ modus ORDINÁLNE: ‐ modus ‐ medián INTERVALOVÉ: ‐ modus ‐ medián ‐ priemer POMEROVÉ: ‐ modus ‐ medián ‐ priemer STREDNÉ HODNOTY| Priemer • veľmi citlivý na extrémne hodnoty • nemá zmysel pri asymetrickom rozložení dát • môže poskytovať informáciu, ktorá neodpovedá skutočnosti (!) PRÍKLAD • hodnotenie úspešnosti určitej terapie • 20 pacientov prežilo mesiac, 1 pacient prežil 30 rokov (?) • priemer dožitia = 18 mesiacov (1,5 roka)  STREDNÉ HODNOTY| Priemer Jedinec Muži (počet pív) Ženy (počet pív) Jedinec č. 1 Jedinec č. 2 Jedinec č. 3 Jedinec č. 4 Jedinec č. 5 Súčet: Aritmetický priemer:  40 8 40 8 Jedinec Muži (počet pív) Ženy (počet pív) Jedinec č. 1 8 0 Jedinec č. 2 8 0 Jedinec č. 3 8 0 Jedinec č. 4 8 0 Jedinec č. 5 8 40 Súčet: Aritmetický priemer:  40 8 40 8 ‐ priemer počtu pív vypitých za jeden týždeň STREDNÉ HODNOTY vs. FREKVENCIA VÝSKYTU • mesačný príjem jedinec č.1:  17 000,‐ Kč jedinec č. 2:  18 000,‐ Kč jedinec č. 3:  18 000,‐ Kč jedinec č. 4:  19 000,‐ Kč jedinec č. 5: 19 000,‐ Kč jedinec č. 6:  19 000,‐ Kč jedinec č. 7: 20 000,‐ Kč jedinec č. 8: 20 000,‐ Kč jedinec č. 9: 21 000,‐ Kč PRIEMER: 19 000,‐ Kč MODUS: 19 000,‐ Kč MEDIÁN: 19 000,‐ Kč jedinec č.1:  17 000,‐ Kč jedinec č. 2:  18 000,‐ Kč jedinec č. 3:  18 000,‐ Kč jedinec č. 4: 19 000,‐ Kč jedinec č. 5:  19 000,‐ Kč jedinec č. 6: 19 000,‐ Kč jedinec č. 7: 20 000,‐ Kč jedinec č. 8: 20 000,‐ Kč jedinec č. 9: 21 000,‐ Kč jedinec č. 10: 50 000,‐ Kč jedinec č. 11: 100 000.‐ Kč PRIEMER: 29 200,‐ Kč MODUS: 19 000,‐ Kč MEDIÁN: 19 000,‐ Kč rozloženie/histogram? STREDNÉ HODNOTY vs. FREKVENCIA VÝSKYTU • niekedy vhodnejšie využiť štatistiky nižšej úrovne (modus, median) • POZOR na homogenitu vzorku! (rozloženie hodnôt premennej) zdroj: ISPV.cz 0 10 20 30 40 50 60 70 80 90 100 110 120 130 140 150 160 170 180 190 200 187 cm 163 cm 165 cm 196 cm 185 cm AKO MERAŤ VARIABILITU? Rozptyl: priemer druhých mocnín vzdialenos  hodnôt od ich priemeru → odchýlky  od priemeru Smerodatná odchýlka:  𝑟𝑜𝑧𝑝𝑡𝑦𝑙 0 10 20 30 40 50 60 70 80 90 100 110 120 130 140 150 160 170 180 190 200 187 cm 163 cm 165 cm 196 cm 185 cm priemer =  =  = 179,2 0 10 20 30 40 50 60 70 80 90 100 110 120 130 140 150 160 170 180 190 200 187 cm 163 cm 165 cm 196 cm 185 cm 16,8 7,8 5,8 ‐14,2 ‐16,2 rozptyl =  , , , , , = 210,2 0 10 20 30 40 50 60 70 80 90 100 110 120 130 140 150 160 170 180 190 200 187 cm 163 cm 165 cm 196 cm 185 cm 16,8 7,8 5,8 ‐14,2 ‐16,2 smerodatná odchýlka =  210,2 = 14,5 0 10 20 30 40 50 60 70 80 90 100 110 120 130 140 150 160 170 180 190 200 187 cm 163 cm 165 cm 196 cm 185 cm 193 cm 164 cm VARIABILITA Field2009:38 • načo je to dobré? • vzájomné porovnanie dvoch vzoriek (smerodatná odchýlka) VARIABILITA • 2 vzorky politikov: N = 15 N = 200 • ktorá skupina má väčší rozptyl výšok ? • ktorá skupina má väčší rozptyl výšok ? priemerná výška = 185 priemerná výška = 175 OD POPISOVANIA K VYVODZOVANIU • sociálne vedy → zistenia založené na vzorkách → snaha o generalizáciu na  celú populáciu • máme pod kontrolou všetky intervenujúce premenné? • skutočne naše meranie odpovedá konceptu? • výsledky sú zaťažené neistotou • interval spoľahlivosti – interval, v ktorom skutočná hodnota danej  charakteristiky leží s určitou pravdepodobnosťou (95%) • príklad: výška 40 náhodne vybraných politikov – priemer: 175 cm – smerodatná odchýlka: 20 cm skutočná priemerná  výška všetkých  politikov INTERVAL SPOĽAHLIVOSTI • exit poll – Magistrát Brno 2018 0,00 2,00 4,00 6,00 8,00 10,00 12,00 14,00 16,00 18,00 20,00 22,00 24,00 ANO ODS KDU‐ČSL ČPS ČSSD SPD SZ STAN KSČM ŽB TOP09 SLS Brno+ Exitpoll Brno 2018 INTERVAL SPOĽAHLIVOSTI • exit poll – Magistrát Brno 2018 malé rozdiely nie sú  významné 0,00 2,00 4,00 6,00 8,00 10,00 12,00 14,00 16,00 18,00 20,00 22,00 24,00 ANO ODS KDU‐ČSL ČPS ČSSD SPD SZ STAN KSČM ŽB TOP09 SLS Brno+ Exitpoll Brno 2018 INTERVAL SPOĽAHLIVOSTI • reálne výsledky – Magistrát Brno 2018 0,00 2,00 4,00 6,00 8,00 10,00 12,00 14,00 16,00 18,00 20,00 22,00 24,00 ANO ODS KDU‐ČSL ČPS ČSSD SPD SZ STAN KSČM ŽB TOP09 SLS Brno+ Exitpoll Brno 2018 VZŤAHY MEDZI PREMENNÝMI • dvojrozmerná analýza – vzťahy medzi dvomi premennými • kontingenčná tabuľka (crosstabs) – základná vizualizácia vzťahu dvoch  štatistických znakov (hodí sa najmú pre kategorické premenné s malým  množstvom kategórií) • nerozlišujeme medzi závislou a nezávislou riadky = hodnoty prvého  znaku/premennej  (pohlavie) stĺpce = hodnoty druhého  znaku/premennej  (dominantná ruka) VZŤAHY MEDZI PREMENNÝMI • typický brnenský volič ANO ?  VZŤAHY MEDZI PREMENNÝMI • typický brnenský volič ANO ? VZŤAHY MEDZI PREMENNÝMI • typický brnenský volič ANO ? VZŤAHY MEDZI PREMENNÝMI • typický brnenský volič ANO ? VZŤAHY MEDZI PREMENNÝMI • kontingenčná tabuľka nám nepovie nič o (sile) vzťahu • existuje korelácia? – zmeny v jednej premennej sú doprevádzané zmenami v druhej premennej – vzájomná asociácia medzi premennými je lineárna • korelačný koeficient (r) – sila a smer vzťahu – hodnoty <‐1,1>, 0 = absencia vzťahu čas strávený prípravou na skúšku zisk bodov zo skúšky VZŤAHY MEDZI PREMENNÝMI • korelačný koeficient  VZŤAHY MEDZI PREMENNÝMI • korelácia nie je kauzalita! ...  korelácia neznamená že jedna  vec ovplyvňuje druhú (môžu existovať iné dôvody vzájomnej  korelácie). závislá a nezávislá premenná VZŤAHY MEDZI PREMENNÝMI • závislosť dvoch a viac premenných → regresia • vplyv nezávislej X na závislú Y • predikcia čas strávený prípravou na skúšku zisk bodov zo skúšky VZŤAHY MEDZI PREMENNÝMI • lineárna regresia – závislá premenná musí byť kardinálna (intervalová, pomerová) príklad:  Čo môže ovplyvňovať čas strávený denne na internete? Regresný model  dáta: European Social Survey 2016 vysvetľovacia sila modelu štatistická významnosť p < 0,05regresný koeficient VIZUALIZÁCIA DÁT • prezentácia výstupov • posúdenie charakteru dát • uľahčuje porozumieť číslam • „jeden obrázok povie viac než tisíc slov“ • graf rozpráva príbeh  • veľmi silný nástroj VIZUALIZÁCIA DÁT • aj jemná zmena môže mať zásadný  dopad NAJČASTEJŠIE: • chýbajúci východiskový bod – posunutá Y‐os • dve Y‐osi v jednom grafe • vynechané osi a ich popisy • chybne nakreslený graf