Popisná statistika dvou proměnných Dominik Heger Masaryk University hegerdQchemi. muni. cz STDT06 Dvě proměnné Dominik Heger (MU) Popisná statistika dvou proměnných STDT06 Dvě proměnné 1/20 Dava více proměnných Věk matek 15 20 ~i i r~ 25 30 35 maternal age (years) 40 45 Dominik Heger (MU) Popisná statistika dvou proměnných STDT06 Dvě proměnné Dava více proměnných Věk matek Váha novorozeňat OJ i i i i r~ 15 20 25 30 35 maternal age (years) 40 45 I I I I I 60 80 100 120 140 birthweight (ounces) 160 180 Dominik Heger (MU) Popisná statistika dvou proměnných < rS1 ► < -ž ► 4 > -E -O °s O STDT06 Dvě proměnné 2/20 Data dvou proměnných: rozptylový graf (Scatter Diagram ) maternal age (years) We call such a plot a scatterplot of Y versus X or a scatterplot of Y against X. Scatterplot is one of the best way to study association. □ rS1 ~ = Dominik Heger (MU) Popisná statistika dvou proměnných STDT06 Dvě proměnné 3/20 Data dvou proměnných: rozptylový graf 120 CORRELATION H_n. oj Figure 1 Scatter diagram for heights of 1,078 fathers and sons. Shows positive association between son's height and father's height. Families where the height of the son equals the height of the father are plotted along the 45-degree line y = X. Families where the father is 72 inches tall (to the nearest inch) are plotted in the vertical strip. 80 7B 76 74 7? o I. 70 CD £ 68 z o "3 66 64 62 i 60 5R y. \!& :.\.;V;i \'.A ■'l ť. '.V,' 58 60 62 64 66 68 70 72 FATHER'S HEIGHT (INCHES) 74 76 78 80 ^reedman, Pisani, Purves: Statistics Dominik Heger (MU) Popisná statistika d vou proměnných STDT06 Dvě proměnné Asociace Dominik Heger (MU) Popisná statistika dvou proměnných STDT06 Dvě proměnné 5/20 Asociace 0 asociaci můžeme hovořit tehdy, když úzkém výřezu na X-ové oseje rozptyl v Y menší než je SDy. Dominik Heger (MU) Popisná statistika dvou proměnných STDT06 Dvě proměnné 5/20 Asociace 0 asociaci můžeme hovořit tehdy, když úzkém výřezu na X-ové oseje rozptyl v Y menší než je SDy. Lineární asocice: rozptylový graf je nakupen okolo přímky. Dominik Heger (MU) Popisná statistika dvou proměnných STDT06 Dvě proměnné 5/20 Asociace 0 asociaci můžeme hovořit tehdy, když úzkém výřezu na X-ové oseje rozptyl v Y menší než je SDy. Lineární asocice: rozptylový graf je nakupen okolo přímky. Kladná asociace Nadprůměrné hodnoty jedné proměnné mají tendenci se acosiovat s nadprůměrnými hodnotami druhé proměnné; rozptylový graf roste. Dominik Heger (MU) Popisná statistika dvou proměnných STDT06 Dvě proměnné 5/20 Asociace 0 asociaci můžeme hovořit tehdy, když úzkém výřezu na X-ové oseje rozptyl v Y menší než je SDy. Lineární asocice: rozptylový graf je nakupen okolo přímky. Kladná asociace Nadprůměrné hodnoty jedné proměnné mají tendenci se acosiovat s nadprůměrnými hodnotami druhé proměnné; rozptylový graf roste. Záporná asociace Nadprůměrné hodnoty jedné proměnné mají tendenci se acosiovat s podprůměrnými hodnotami druhé proměnné; rozptylový graf klesá. Dominik Heger (MU) Popisná statistika dvou proměnných STDT06 Dvě proměnné 5/20 Popis rozptylového grafu Bod průměrů in the scatter plot is the point with coordinates [mean of X, mean of Y] = [X, Ý]. Dominik Heger (MU) Popisná statistika dvou proměnných STDT06 Dvě proměnné 6/20 Popis rozptylového grafu Bod průměrů in the scatter plot is the point with coordinates [mean of X, mean of Y] = [X, Ý]. The point of averages is a measure of the "center"of a scatterplot, quite analogous to the mean as a measure of the center of a list. Dominik Heger (MU) Popisná statistika dvou proměnných STDT06 Dvě proměnné 6/20 Popis rozptylového grafu Bod průměrů in the scatter plot is the point with coordinates [mean of X, mean of Y] = [X, Ý]. The point of averages is a measure of the "center"of a scatterplot, quite analogous to the mean as a measure of the center of a list. O Linearity and Nonlinearity Dominik Heger (MU) Popisná statistika dvou proměnných STDT06 Dvě proměnné 6/20 Popis rozptylového grafu Bod průměrů in the scatter plot is the point with coordinates [mean of X, mean of Y] = [X, Ý]. The point of averages is a measure of the "center"of a scatterplot, quite analogous to the mean as a measure of the center of a list. O Linearity and Nonlinearity O Homoscedasticity and Heteroscedasticity Dominik Heger (MU) Popisná statistika dvou proměnných < rS1 ► < -ž ► 4 > -E -O °s O STDT06 Dvě proměnné 6/20 Popis rozptylového grafu Bod průměrů in the scatter plot is the point with coordinates [mean of X, mean of Y] = [X, Ý]. The point of averages is a measure of the "center"of a scatterplot, quite analogous to the mean as a measure of the center of a list. O Linearity and Nonlinearity O Homoscedasticity and Heteroscedasticity O Outlier Dominik Heger (MU) Popisná statistika dvou proměnných STDT06 Dvě proměnné 6/20 Popis rozptylového grafu Bod průměrů in the scatter plot is the point with coordinates [mean of X, mean of Y] = [X, Ý]. The point of averages is a measure of the "center"of a scatterplot, quite analogous to the mean as a measure of the center of a list. O Linearity and Nonlinearity O Homoscedasticity and Heteroscedasticity O Outlier If a scatterplot shows linear association (or no association), homoscedasticity, and no outliers, it is said to be football-shaped (bivariant normal). Look on scatter diagram - see if there is a association, if it is linear and if there are outliers. Dominik Heger (MU) Popisná statistika dvou proměnných STDT06 Dvě proměnné 6/20 SD Line SD Line goes through the point of averages and the points which are equal number of SDs away from average for both variables. Dominik Heger (MU) Popisná statistika dvou proměnných STDT06 Dvě proměnné 7/20 SD Line Exercise Dominik Heger (MU) Popisná statistika dvou proměnných STDT06 Dvě proměnné Association Dominik Heger (MU) Popisná statistika dvou proměnných STDT06 Dvě proměnné 9/20 Association There is a association if in the slice of X the scatter of Y is smaller than SDy. Dominik Heger (MU) Popisná statistika dvou proměnných STDT06 Dvě proměnné 9/20 Association There is a association if in the slice of X the scatter of Y is smaller than SDy. Positive association: The individuals with larger than average values of one variable tend to have larger than average value of the other and individuals with smaller then average values of X tend to have smaller then average values of Y. Optically examine if there is an association. If yes - is it linear? If yes - talk about correlation. Korelace (je podmnožinou) C asociace. Correlation (is subset of, is included in) C association. Association (is superset of or includes) ~D correlation. Dominik Heger (MU) Popisná statistika dvou proměnných STDT06 Dvě proměnné 9/20 Post Hoc Ergo Propter Hoc fallacy After this, therefore because of this. Association between two variables is often used as evidence that there is a causal relationship between variables - erroneously. NOT Truth = Fallacy: If two things are associated, there is some causal relationship between them. One causes the other. • Jeníček, Pepíček, Mařenka. • Readibility and shoe size have positive association. • Money spend on healthcare and life expectancy have negative association. • Waxing of the car and its maximum speed have positive association. The variables are related in some way, but that does not mean that one causes the other. Association is not causation! What are the confounding factors? Dominik Heger (MU) Popisná statistika dvou proměnných STDT06 Dvě proměnné 10 / 20 Temperature is a Confounding Variable Low Temperature Causation Causation Correlation does not Imply Causality! Post hoc, ergo propter hoc. (lat „After this, therefore because of this.") Correlation Aerosols J K F M f.1r'.fi 2 SD k* n FT Icnintrlí l_l http5://w ww .japan, travel/en/sports/snow/snaw-trave l/la ke-akan-frost-f lowers/ Dominik Heger (MU) Popisná statistika dvou proměnných STDT06 Dvě proměnné 11 / 20 How to calculate SOMETHING that would tell us how much linearly related are the data? What can we use to get such a SOMETHING? Dominik Heger (MU) Popisná statistika dvou proměnných STDT06 Dvě proměnné 12/20 Correlation coefficient (r) quantifies the linear association: • Its sign tells us whether the scatterplot tilts up or down. o Its magnitude tells us how tightly the data clusters around a straight line. o If the points in a scatterplot of Y versus X fall on a horizontal line, rxy is not defined. o Correlation coefficient of X and Y is the average of the product of X and Y in standard units. relation D correlation r has sense when association is: linear, homoscedastic, without outliers. Football-shaped scatterplot can be summarized with 5 numbers: mean of X, mean of Y9 SD of X, SD of Y and R (correlation coefficient) Dominik Heger (MU) Popisná statistika dvou proměnných STDT06 Dvě proměnné 13 / 20 How to calculate correlation coefficient (r)? co H CM H Dominik Heger (MU) Popisná statistika dvou proměnných < rS1 ► < -ž ► 4 > š -O °s O STDT06 Dvě proměnné 14 / 20 How to calculate correlation coefficient (r)? r — — n i n i=l a EL} x (X/ y a X Dominik Heger (MU) Popisná statistika dvou proměnných □ iS1 STDT06 Dvě proměnné 15/20 How to calculate correlation coefficient (r)? n r = /=i y x Figure 5. Summarizing a scatter diagram. The correlation coefficient measures clustering around a line. (a) Correlation near 1 means tight clustering. (b) Correlation near 0 means loose clustering. \ \ \ \ Dominik Heger (MU) Popisná statistika dvou proměnných STDT06 Dvě proměnné 15 / 20 Example of r = 0.70 Figure 3. The effect of changing SDs. The two scatter diagrams have the same correlation coefficient of 0.70. The top diagram looks more tightly clustered around the SD lire because its SDs are smaller. Dominik Heger (MU) Popisná statistika dvou proměnných STDT06 Dvě proměnné 16/20 Ecological correlations are correlation coefficients of averages across groups of individuals, rather than correlation coefficients for individuals. Always use original data for correlation, NOT averages. Most of the variability was taken away by averaging. Beware arguments about association that rely on ecological correlations. fid í T) > -V B B B B B B Individual education 0 B St a be. averacii Dominik Heger (MU) Popisná statistika dvou proměnných STDT06 Dvě proměnné Correlation Correlation is a tool of descriptive statistics. It is often confused with prediction and even with causal inference as such. Dominik Heger (MU) Popisná statistika dvou proměnných STDT06 Dvě proměnné 18 / 20 Infromation sources https://courses.edx.org/courses/BerkeleyX/Stat_2.lx/ http://www.stat.berkeley.edu/ stark/SticiGui/ David Freedman, Robert Pisani, Foger Purves:Statistics Dominik Heger (MU) Popisná statistika dvou proměnných □ iS1 STDT06 Dvě proměnné 19 / 20 Regression Dominik Heger (MU) Popisná statistika dvou proměnných STDT06 Dvě proměnné 20 / 20