REGRESNÍ ANALÝZA Příklad: Z dat PISA zjišťuji vztah mezi: matematickým skóre žáků a úrovní příjmů domácnosti v níž žijí /pro přehlednost je vše v tomto příkladu vymyšleno a souvislost mezi příjmem a výkony žáků není zdaleka tak silná OSA X – HODNOTY JEDNÉ PROMĚNNÉ Pro regresní modelování je typická představa dat v souřadné soustavě... PŘÍJEM DOMÁCNOSTI RODIČŮ Výsledek obrázku pro ŽÁK 68.500 Kč 80 bodů Zde máme Artura: jeho rodiče jsou poměrně bohatí a má dobré výsledky Představme si tedy, že vynášíme jednotlivé případy do bodového grafu... PŘÍJEM DOMÁCNOSTI RODIČŮ Výsledek obrázku pro ŽÁK 13.900 Kč 30 bodů Zde máme Adama: jeho rodiče jsou poměrně chudí a má špatné výsledky PŘÍJEM DOMÁCNOSTI RODIČŮ Výsledek obrázku pro ŽÁK 28.300 Kč 70 bodů Zde máme Andreu: její rodiče jsou na tom průměrně a Andrea má celkem dobré výsledky PŘÍJEM DOMÁCNOSTI RODIČŮ Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK adam artur andrea Takto vypadají uspořádaná data za tři žáky... PŘÍJEM DOMÁCNOSTI RODIČŮ Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK adam artur andrea Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK anna aleš agáta Přidáváme další... PŘÍJEM DOMÁCNOSTI RODIČŮ Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK a další... A sledujeme, jestli v grafu vidíme nějaký rozpoznatelný vzorec (tvar) PŘÍJEM DOMÁCNOSTI RODIČŮ Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Úkolem regrese je proložit daty přímku – tu považujeme za vhodný a nejjednodušší model souvislostí přímé či nepřímé úměry PŘÍJEM DOMÁCNOSTI RODIČŮ R = 0,68 Tohle už známe z korelací – koeficient korelace vyjadřuje jak se data přimykají k přímce – jak je souvislost „těsná“ PŘÍJEM DOMÁCNOSTI RODIČŮ R = 0,68 Ale těsnost není totéž co efekt... Srovnejme následující varianty: PŘÍJEM DOMÁCNOSTI RODIČŮ R = 0,68 Ale těsnost není totéž co efekt... Srovnejme následující varianty: Výsledek obrázku pro regression different slopes TĚSNOST = jak často je změna v příjmu rodičů asociována se změnou skóre žáka EFEKT = jak moc se mění skóre žáka v závislosti na příjmu rodičů PŘÍJEM DOMÁCNOSTI RODIČŮ R = 0,68 REGRESE nám tedy na rozdíl od korelace prozradí, jak velký vliv má příjem rodičů na skóre žáků Zde například odlišné příjmy rodičů vedou k poměrně malým rozdílům ve skóre žáků, nicméně rozdíly jsou systematické – těsnost vztahu je silná. PŘÍJEM DOMÁCNOSTI RODIČŮ R = 0,68 Zde odlišné příjmy rodičů vedou k velmi výrazným rozdílům ve skóre žáků PŘÍJEM DOMÁCNOSTI RODIČŮ Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Zároveň regrese umožňuje predikovat... Výsledek obrázku pro ŽÁK AHOJ, JSEM BEDŘICH A JSEM TU NOVÝ... PŘÍJEM DOMÁCNOSTI RODIČŮ Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Zároveň regrese umožňuje predikovat... Výsledek obrázku pro ŽÁK VÍME, ŽE BEDŘICHOVI RODIČE VYDĚLÁVÁJÍ 90.000, ALE NEVÍME JAKÉ MÁ VÝSLEDKY PŘÍJEM DOMÁCNOSTI RODIČŮ Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Podle hodnoty nezávisle proměnné predikujeme pozici na přímce a z ní odečteme hodnotu závisle proměnné... Výsledek obrázku pro ŽÁK 90.000 Kč Odhad: 85 bodů BEDŘICH PRAVDĚPODOBNĚ BUDE NÁŠ NOVÝ PREMIANT VAROVÁNÍ K PŘÍKLADU: Omluvte prosím stigmatizující a potenciálně stereotypizující charakter přechozího příkladu – děti chudých se neučí o tolik hůře jako děti bohatých Výsledky z reálných dat PISA 2012 https://www.csicr.cz/Csicr/media/Prilohy/PDF_el._publikace/Mezinárodní%20šetření/PISA_2012_SA.pdf S regresní analýzou opouštíme oblast popisných statistik a vstupujeme na pole modelovaní. Model je vždy abstrakce - odhlížíme od detailů ve prospěch zachycení důležitého vzorce Srov. Letecký snímek vs. mapa Obsah obrázku text, mapa, fotka, různé Popis vygenerovaný s velmi vysokou mírou spolehlivosti Obsah obrázku text, mapa Popis vygenerovaný s velmi vysokou mírou spolehlivosti U MODELŮ LZE OBECNĚ UVAŽOVAT O DVOU ASPEKTECH: PARAMETRY MODELU: co model říká -jaký tvar má souvislost, -jaký je sklon přímky... Regresní rovnice a její členy VHODNOST MODELU: jak dobře model reprezentuje data, jak "sedí„ Míry vhodnosti modelu (nový význam R2 – zde jako míra vhodnosti modelu, podobně také ANOVA – analýza rozptylu) Výsledek obrázku pro regression scatterplots Výsledek obrázku pro regression scatterplots strong weak Cíl lineární regrese lSumarizovat vztah mezi dvěma proměnnými ve formě rovnice přímky (neboť předpokládáme lineární, tj. přímkový vztah) prostřednictvím výpočtu regresního koeficientu: l y …. hodnota závisle proměnné, tu chceme predikovat (outcome) a …. parametr, který říká, v jakém bodě přímka protíná vertikální osu Y (hodnota Y, když X = 0), b …. regresní koeficient -- určuje směr přímky, (predictor) x .… hodnota nezávisle proměnné, slouží k predikci hodnoty y y = a + b*x (Y = b0 + b1* X1) Vždy ale musí obsahovat dva členy (které se však taky nazývají různě): Něco, co určuje, kde přímka protíná osu Y – to je nutné pro její umístění v rovině – názvy: konstanta, posunutí, intercept Něco, co určuje sklon přímky: směrnice, koeficient, slope nejčastěji y = a + b*x a = Konstanta (intercept) b = Regresní koeficient (slope) ly = a + b * x PŘÍJEM DOMÁCNOSTI RODIČŮ Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Takže například: skóre = 15 + 0,005*příjem rodičů PŘÍJEM DOMÁCNOSTI RODIČŮ Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Výsledek obrázku pro ŽÁK Takže například: Jestliže se příjem domácnosti zvýší o korunu, zvýší se skóre žáka o 0,005 bodu … jestliže se zvýší o 1000 Kč, zvýší se skóre o 5 bodů Podmínky pro užití lineární regresní analýzy: l1. Vztah mezi analyzovanými proměnnými musí být lineární, l2. závisle proměnná Y je měřena na intervalové úrovni a nezávisle proměnná X je buď intervalová, nebo dichotomická, l3. obě proměnné by měly být přibližně normálně rozloženy l4. V datech není přítomna heteroskedasticita