Statistická analýza dat II. – PSY 252 Ondřej Sedlák (414830), Lenka Tarabíková (414635) Seminární úkol č. 3 Pro analýzu prostřednictvím logistické regrese jsme použili data EU Kids Online Survey, dostupná ve studijních materiálech v datovém souboru EU_Kids_FINALwDV_100511-all_missing-PSY252-v2.sav. Výzkumníci se zde zabývali zkušenostmi dětí a jejich rodičů při užívání internetu. Výzkumný vzorek zahrnuje celkem 18 709 respondentů. Pro provedení logistické regrese jsme si zvolili závislou proměnnou pohlaví (N=18709). Naším záměrem bylo použít celkem 10 nezávislých proměnných[SJ1] , u nichž jsme předpokládali, že by mohly přispět k predikci závislé proměnné. První zvolenou nezávislou proměnnou byla informace o tom, jak děti hodnotí své znalosti o používání internetu a kolik o něm ví (N = 18519). Předpokládali jsme, že chlapci budou častěji uvádět, že o používání internetu ví hodně, jelikož by mohli být odvážnější při objevování nových věcí a znalosti by mohli nabývat i díky tomu, že se častěji zajímají o technické parametry a fungování než dívky. Druhou nezávislou proměnnou jsme zvolili údaje, zda podle dětí existují na internetu věci, které vadí lidem jejich věku (N = 17467). Naším předpokladem bylo, že častěji si na tuto otázku odpoví “ano” dívky, jelikož by mohly být zahanbovány například stránkami s erotickou tematikou nebo materiálem zobrazujícím násilí. Chlapci by se mohli o tyto stránky zajímat ve větší míře, jelikož častěji hrají bojové hry, ve kterých se násilí objevuje. A erotickou tematiku by mohli vyhledávat čistě ze zvědavosti. Další proměnnou jsme určili zhodnocení, zda bývá dítě často rozzlobené (N = 18540). Domnívali jsme se, že na tuto otázku častěji odpoví “ano” chlapci, kteří dle našeho názoru dávají konkrétně tyto emoce více najevo než dívky. Čtvrtou proměnnou tvořily odpovědi na otázku, nakolik je pravdivé tvrzení, že dítě dělá nebezpečné věci pro zábavu (N = 18577). I zde jsme očekávali více souhlasů od chlapců, kteří bývají dobrodružnější a divočejší při hraní než dívky. Následující tři proměnné se týkaly toho, zda se nějaká událost stala v posledních dvanácti měsících. Zaprvé, zda nastala situace, že dítě nešlo do školy, aniž by o tom věděli jeho rodiče (N = 17914). Domnívali jsme se, že vícekrát odpoví “ano” chlapci než dívky. Stejně tak u druhé události, která se týkala toho, jestli mělo dítě problémy s učiteli kvůli špatnému chování (N = 17914). U obou proměnných jsme tak usuzovali díky našim domněnkám, které jsme zmínili již dříve. A to, že chlapci bývají divočejší, vzteklejší, odvážnější (i v tom klamat rodičům). Třetí situací bylo, zda dítě mělo nějaký zážitek na internetu, který by mu vadil (N = 16802). Očekávali jsme více souhlasů od dívek a to z důvodů stejných jako u druhé proměnné. Jako osmou nezávislou proměnnou jsme vybrali informace týkající se toho, zda se dítě rozhodlo setkat s někým, koho nejdříve potkalo na internetu (N = 6149). Předpokládali jsme častější kladné odpovědi u chlapců, kteří se více zapojují do komunit vytvářených kolem hraní online her, jež se mnohdy schází následně i v reálném životě. Předposlední proměnnou, u níž jsme uvažovali o vztahu k závislé proměnné, bylo hodnocení toho, kolik si děti myslí, že rodiče ví o jejich konkrétních aktivitách provozovaných na internetu (N = 18133). Domnívali jsme se, že více budou možná dívky ochotny sdílet informace o svých aktivitách s rodiči, jelikož se více vyhýbají právě stránkám zobrazujícím erotiku nebo násilí. A ze stejného důvodu, jsme si mysleli, že budou více různé aktivity na internetu s rodiči sdílet. Tyto společné aktivity jsme vybrali jako naši desátou nezávislou proměnnou (N = 18265[SJ2] ). Po použití metody Enter jsme z modelu vyloučili celkem šest nezávislých proměnných[SJ3] , u kterých se neprokázal statisticky významný (<.05) vliv na závislou proměnnou. Náš model tedy vytvořila závislá proměnná, kterou jsme predikovali na základě údajů, kolik toho děti ví o používání internetu, jestli existují na internetu věci, které vadí lidem jejich věku, jestli dělají nebezpečné věci pro zábavu a jestli v posledních 12 měsících měly na internetu zážitek, který by jim vadil. Konečná velikost vzorku byla 15544 respondentů, u nichž jsme měli kompletní údaje[SJ4] . Tabulka 1 Výsledky logistické regrese B SE Exp(B) 95 % CI for Exp(B) Lower Upper[SJ5] QC107a(1) 1.[SJ6] 09 .09 2.98 2.49 3.57 QC107a(2)[SJ7] .37 .09 1.44 1.19 1.74 QC110 .24 .05 1.27 1.16 1.39 QC319b(1) .37 .06 1.45 1.29 1.62 QC319b(2) .18 .04 1.2 1.12 1.29 QC322 .24 .03 1.27 1.18 1.36 Constant - 1.22 .09 .29 R²= .04 (Cox & Snell), .05 (Nagelkerke). Model chí2 (6, N=15544) = 601.59, p < .05 QC107a - provozování nebezpečných věcí pro zábavu QC110 - výskyt otravného zážitku na internetu v posledním roce QC319b - vysoká znalost věcí týkajících se internetu QC322 - přítomnost věcí na internetu, které by mohli otravovat lidi ve věku dotazovaného Při kontrole předpokladů provedení logistické regrese jsme prokázali absenci vysoké kolinearity, jelikož hodnoty VIF nejsou vyšší než 1.05 a hodnoty tolerance nejsou nižší než .95. Podmínku nezávislosti reziduí ukazuje hodnota 1.97 v Durbin-Watsonově testu. Po provedení logistické analýzy Waldova statistika ukázala[SJ8] , že prediktory významně přispívají k predikci závislé proměnné, ale model[SJ9] správně klasifikuje pouze 58.2[SJ10] %. Výpočet pravděpodobnosti, že jev nastane, tedy že bude osoba ženského pohlaví, pokud je názoru, že se na internetu vyskytují věci, které by mohli otravovat i vrstevníky a zároveň byla v posledním roce něčím na internetu otravována. lnO[y=žena]= -1.22 + 0.24 + 0.24 lnO[y=žena]= -0.74 O=0.48 P=0.68 Můžeme tedy tvrdit, že s 68% pravděpodobností bude osoba za těchto podmínek žena[SJ11] . Dobře jste si pohráli, ale nedostali jste se k interpretaci ani k nějakým závěrům. Leccos chybí. SJ ________________________________ [SJ1]raději prediktory [SJ2]Pěkně tu volbu prediktorů zdůvodňujete. Vzhledem k výsledkům, které následují, bude prima, když si zareflektujete nad tím, jak platné jsou naše „každodenní“ představy o rozdílech mezi klukama a holkama. [SJ3]Tohle jsme si řekli na semináři – blokování, či jiné zkoušení různých modelů s různými prediktory musí být jasně popsané. Ne nutně kompletními výsledky, ale aspoň narativně „jak jsme došli k modelu, který vám prezentujeme“. [SJ4]Chybí deskriptivy a vztahy se závislou. Pak by taky bylo zřejmé, že některé kategorické proměnné mají více než 2 hodnoty. [SJ5]dolní mez, horní mez [SJ6]Držte to česky: čárky a jednotkové nuly. [SJ7]tohle je bez komentáře nesrozumitelné [SJ8]Která? [SJ9]Aby se to nepletlo je dobré držet výroky o prediktorech a o modelu v oddělených větách. [SJ10]Vůbec nedošlo na interpretaci jednotlivých prediktorů. [SJ11]O účelu počítání té pnosti jsme mluvili na semináři.