Vizualizace dat Vizualizace - úvod q Obrázek je cennější než tisíce slov! q Vizualizace umožňuje snadnější pochopení dat! Vizualizace - úvod Kurz CZK/USD: q 2.1.2007: 20,745 q 17.10.2008: 18,819 21,73731.1.2007 21,81430.1.2007 21,83629.1.2007 21,81126.1.2007 21,68725.1.2007 21,57924.1.2007 21,40223.1.2007 21,49522.1.2007 21,42419.1.2007 21,55418.1.2007 21,58717.1.2007 21,43416.1.2007 21,45715.1.2007 21,5312.1.2007 21,39211.1.2007 21,3510.1.2007 21,2029.1.2007 21,2568.1.2007 21,125.1.2007 21,0644.1.2007 20,7333.1.2007 20,7452.1.2007 1 USD Vizualizace - úvod kurz CZK/USD 10 12 14 16 18 20 22 24 2.1.2007 2.3.2007 2.5.2007 2.7.2007 2.9.20072.11.2007 2.1.20082.3.2008 2.5.2008 2.7.2008 2.9.2008 q Obrázek poskytuje mnohem více informací Vizualizace ­ zdroje z Na prvním místě se obvykle citují knihy prof. Tufteho, např. Tufte E.R. (1983) The Visual Display of Quantitative Information, Graphic Press, Chesire, Conn. z Weby o vizualizaci, např. yhttp://www.math.yorku.ca/SCS/Gallery/noframes.html - galerie s poučným výkladem a příklady i nezdařených či lživých grafů yhttp://www.agocg.ac.uk/ - John Lansdown (1992) Aspects of Design in Computer Graphics: Some Notes ­ http://www.agocg.ac.uk/train/hitch/hitch.htm z Jiné weby, např. stránky různých vizualizačních programů a organizací yhttp://www.cybergeography.org/atlas/atlas.html nebo http://miner3d.com/products/gallery.html Vizualizace ­ historie q William Playfair, 1786: první publikovaná prezentační grafika Vizualizace ­ historie q Dr. John Snow, 1845: epidemie cholery v Londýně Vizualizace ­ historie q Florence Nightingale, 1858: důvody úmrtí v průběhu Krymské války (1853-1856) Vizualizace ­ historie q Harry Beck, 1931: schéma Londýnského metra Vizualizace investigativní analýza q http://www.i2inc.com/ Forensic accounting Money laundering Insider trading violations Corporate security Anti-pirating investigations Entertainment copyright violations Competitive intelligence Civil lawsuits Fraud: Credit card Insurance Retail Health care Commercial Telephone Criminal prosecutions National security Military intelligence Embassy security Postal inspection and fraud Prison investigations Park and wildlife services Antitrust investigations Tax fraud investigations Customs investigations Counterterrorism Narcotics investigations Organized crime Intelligence analysis Fraud Missing persons Major investigations Counterfeiting Immigration control Major event security Money laundering Gang investigations CommercialGovernmentLaw Enforcement q osobní kontakty, pojistné podvody Vizualizace investigativní analýza q Praní špinavých peněz, kriminální gangy Vizualizace investigativní analýza Vizualizace ­ portfolio management q Hledání závislostí v datech: q Věk vs. délka zaměstnání Vizualizace ­ portfolio management q Věk vs. délka zaměstnání vs. default Vizualizace ­ portfolio management q Distribuční funkce doby do defaultu Vizualizace ­ portfolio management q Test stability scóringové funkce Vizualizace ­ portfolio management q Vizualizace kreditních rizikových nákladů (KRN) Vizualizace ­ portfolio management Vizualizace ­ portfolio management q Histogram, Distribuční funkce Vizualizace ­ portfolio management q Bodové grafy Vizualizace ­ portfolio management q Lorenzova křivka BA A Gini + = AGini 2= 2 1 _ += Astatc ( )Ginistatc += 1 2 1 _ C-statistika = pravděpodobnost, že náhodně vybraný dobrý klient má lepší skóre než náhodně vybraný špatný klient. Nebo... = pravděpodobnost, že aktuálně nabývá sledovaný ukazatel vyšších hodnot než nabýval na referenčním období. Vizualizace - dendrogram Category % n Bad 52,01 168 Good 47,99 155 Total (100,00) 323 Node 0 Category % n Bad 15,82 25 Good 84,18 133 Total (48,92) 158 Node 2 Category % n Bad 0,92 1 Good 99,08 108 Total (33,75) 109 Node 7 Category % n Bad 48,98 24 Good 51,02 25 Total (15,17) 49 Node 6 Category % n Bad 86,67 143 Good 13,33 22 Total (51,08) 165 Node 1 Category % n Bad 81,58 31 Good 18,42 7 Total (11,76) 38 Node 5 Category % n Bad 97,56 80 Good 2,44 2 Total (25,39) 82 Node 4 Category % n Bad 71,11 32 Good 28,89 13 Total (13,93) 45 Node 3 Credit ranking (1=default) Paid Weekly/Monthly Adj. P-value=0,0000, Chi-square=179,6665, df=1 Monthly salary Age Categorical Adj. P-value=0,0000, Chi-square=58,7255, df=1 Middle (25-35);Old ( > 35)Young (< 25) Weekly pay Social Class Adj. P-value=0,0004, Chi-square=20,3674, df=2 UnskilledClerical;Skilled ManualManagement;Professional Vizualizace v biologii/chemii q 3D zobrazení proteinu Meteo-vizualizace Kartogram q Obce s počtem 500 a více obyvatel s vysokorychlostním připojením k internetu, podle okresů (%), k 31.12.2006 Kartodiagram Grafy ­další typy Geografická data http://www.esri.com/mapmuseum/index.html Nehodnotit jen na základě popisných charakteristik qshodný průměr (4) qshodný medián (4) qshodný modus (4) qshodný rozptyl (1,8) qshodná šikmost (0) qshodný rozsah (1000) qrůzná špičatost 0 200 400 600 800 1 2 3 4 5 6 7 1 Q-Q plot q Histogramy normálního(červeně) a exponenciálního(modře) rozdělení Q-Q plot q Q-Q plot pro normálně a exponenciálně rozdělených dat Q-Q plot q Histogramy dvou exponenciálně rozdělených dat Q-Q plot q Q-Q plot: normální vs. exponenciální data Q-Q plot q Exponenciální vs. exponenciální data Měřítko q která přímka roste strměji? Měřítko q Pohled tvůrce grafu: Zvýraznění trendu ­ pozitivní výsledky. Potlačení trendu ­ negativní výsledky. q Pohled uživatele grafu: Grafy bez uvedeného měřítka jsou silně podezřelé. Nepodléhat podsouvané informaci o růstu/poklesu.