Základy matematiky a statistiky pro humanitní obory I Pavel Rychlý Vojtěch Kovář Fakulta informatiky, Masarykova univerzita Botanická 68a, 602 00 Brno, Czech Republic {pary, xkovar3}@fi.muni.cz 14. 12. 2010 Pavel Rychlý, Vojtěch Kovář (FI MU Brno) PLIN004 14. 12. 2010 1 / 13 Obsah přednášky Obsah přednášky Statistika Statistický soubor Jednorozměrný soubor Dvourozměrný soubor Pavel Rychlý, Vojtěch Kovář (FI MU Brno) PLIN004 14. 12. 2010 2 / 13 Statistika Statistika Statistika Motivace sumarizace informací o velkých souborech dat odhady informací o velkém souboru dat na základě menšího vzorku modelování různých souborů dat např. jazyka (prostřednictvím korpusů) Cíl přednášky seznámit se se základními pojmy statistiky → využití v navazujících předmětech Pavel Rychlý, Vojtěch Kovář (FI MU Brno) PLIN004 14. 12. 2010 3 / 13 Statistický soubor Statistický soubor Statistický soubor Základní soubor (populace) soubor údajů (statistických znaků) o objektech každý objekt souboru má statistické znaky jejich počet = rozměr souboru např. všichni sloni v Africe – výška a hmotnost Statistický soubor výběr objektů ze základního souboru např. ti sloni, které se podařilo zvážit a změřit měl by být reprezentativní → můžeme vyvozovat znalosti o základním souboru často náhodný výběr Pavel Rychlý, Vojtěch Kovář (FI MU Brno) PLIN004 14. 12. 2010 4 / 13 Jednorozměrný soubor Jednorozměrný statistický soubor Jednorozměrný statistický soubor Např. hmotnost slonů v Africe podařilo se nám zvážit 6 slonů ti měli hmotnosti 2, 4, 4, 4, 5 a 12 tun Statistický soubor šestice (2, 4, 4, 4, 5, 12) Rozsah statistického souboru počet jeho prvků (6) Absolutní četnost hodnoty počet jejích výskytů v souboru např. absolutní četnost hodnoty 4 je 3 Pavel Rychlý, Vojtěch Kovář (FI MU Brno) PLIN004 14. 12. 2010 5 / 13 Jednorozměrný soubor Jednorozměrný statistický soubor Jednorozměrný statistický soubor (II) Statistický soubor (2, 4, 4, 4, 5, 12) Relativní četnost hodnoty absolutní četnost : rozsah souboru např. relativní četnost hodnoty 4 je 50 % Kumulativní četnost četnost příslušné hodnoty + četnost všech menších hodnot absolutní nebo relativní např. kumulativní absolutní četnost hodnoty 4 je 4 Hodnoty mohou být rozděleny do tříd → absolutní/relativní/kumulativní četnost třídy Histogram sloupcový graf znázorňující četnosti jednotlivých tříd Pavel Rychlý, Vojtěch Kovář (FI MU Brno) PLIN004 14. 12. 2010 6 / 13 Jednorozměrný soubor Charakteristiky polohy Charakteristiky polohy Statistický soubor (2, 4, 4, 4, 5, 12) Aritmetický průměr „těžiště” statistického souboru (někdy značíme avg) např. 5 Modus hodnota (třída) s největší četností např. 4 Medián „prostřední” hodnota (nebo průměr ze dvou prostředních) není citlivá na extrémní odchylky (jako průměr) např. 4 Pavel Rychlý, Vojtěch Kovář (FI MU Brno) PLIN004 14. 12. 2010 7 / 13 Jednorozměrný soubor Charakteristiky variability Charakteristiky variability Statistický soubor (2, 4, 4, 4, 5, 12) Rozptyl (disperze, variance) s2 aritmetický průměr druhých mocnin odchylek od průměrné hodnoty ((x1 − avg)2 + (x2 − avg)2 + ... + (xn − avg)2)/n např. ((−3)2 + (−1)2 + (−1)2 + (−1)2 + 02 + 72)/6 = 10 větší rozptyl ≡ větší variabilita hodnot Směrodatná odchylka s odmocnina z rozptylu vyjadřuje totéž, jen jiným číslem Pavel Rychlý, Vojtěch Kovář (FI MU Brno) PLIN004 14. 12. 2010 8 / 13 Dvourozměrný soubor Dvourozměrný statistický soubor Dvourozměrný statistický soubor Dvě hodnoty pro každý objekt např. výška a hmotnost slonů ((x1, y1), (x2, y2), ..., (xn, yn)) lze chápat jako dva svázané jednorozměrné soubory Koeficient korelace určuje míru lineární závislosti znaků x a y „jak dobře jde grafem závislosti x na y proložit přímku” 0 = žádná závislost; 1 = lineární závislost 0