Přednáška III. Data, jejich popis a vizualizace Náhodný výběr, cílová a výběrová populace Typy dat Vizualizace různých typů dat Popisné statistiky Tomáš Pavlík Biostatistika Opakování – podmíněná pravděpodobnost Jak můžu vyjádřit podmíněnou pravděpodobnost jevu A za nastoupení jevu B? A co platí v případě nezávislosti těchto dvou jevů? Tomáš Pavlík Biostatistika Opakování – význam podmíněné pravděpodobnosti Princip podmíněné pravděpodobnosti je v biostatistice velmi častý – máme systém hypotéz (nejčastěji dvou) o vlastnostech cílové populace a pozorovaná data. Na jejich základě pak rozhodujeme o platnosti stanovených hypotéz. Uveďte příklad. Tomáš Pavlík Biostatistika Opakování – diagnostické testy Co vyjadřují následující charakteristiky? Senzitivita Specificita Prediktivní hodnota pozitivního testu Prediktivní hodnota negativního testu 1. Jak vznikají data? Tomáš Pavlík Biostatistika Jak vznikají data? Záznamem skutečnosti… Tomáš Pavlík Biostatistika Jak vznikají data? Záznamem skutečnosti… … kterou chceme dále studovat → smysluplnost? … více či méně dokonalým → kvalita? Tomáš Pavlík Biostatistika Jak vznikají data? Záznamem skutečnosti… … kterou chceme dále studovat → smysluplnost? (krevní tlak, glykémie × počet srdcí, počet domů) … více či méně dokonalým → kvalita? (variabilita = informace + chyba) Tomáš Pavlík Biostatistika Cílová populace, výběrová populace Cílová populace – skupina subjektů, o které chceme zjistit nějakou informaci. Odpovídá základnímu prostoru Ω. Experimentální vzorek neboli výběrová populace – podskupina cílové populace, kterou pozorujeme, měříme a analyzujeme. Jakékoliv výsledky chceme zobecnit na celou cílovou populaci. Výběrová populace musí svými charakteristikami odpovídat cílové populaci (reprezentativnost). Toho můžeme docílit náhodným, ale i záměrným výběrem. Prostor všech možností (dán genofondem) Cílová populace Vzorek Tomáš Pavlík Biostatistika VÝSLEDKY Cílová populace Náhodný výběr dle optimálního plánu Reprezentativní vzorek n subjektů Měření charakteristiky Hodnocení variability hodnot ve výběrovém souboru ? Zobecněnízávěrů Reprezentativnost Přesnost Spolehlivost ? Popis cílové populace – popis pozorované variability 2. Typy dat a jejich vizualizace Tomáš Pavlík Biostatistika Typy dat Kvalitativní proměnná (kategoriální) – lze ji řadit do kategorií, ale nelze ji kvantifikovat, resp. nemá smysl přiřadit jednotlivým kategoriím číselné vyjádření. Příklady: pohlaví, HIV status, užívání drog, barva vlasů Kvantitativní proměnná (numerická) – můžeme jí přiřadit číselnou hodnotu. Rozlišujeme dva typy kvantitativních proměnných: Spojité: může nabývat jakýchkoliv hodnot v určitém rozmezí. Příklady: výška, váha, vzdálenost, čas, teplota. Diskrétní: může nabývat pouze spočetně mnoha hodnot. Příklady: počet krevních buněk, počet hospitalizací, počet krvácivých epizod za rok, počet dětí v rodině. Tomáš Pavlík Biostatistika Typy dat – příklady Kvalitativní proměnná Kvantitativní proměnná Tomáš Pavlík Biostatistika Kvalitativní data lze dělit dále Binární data – pouze dvě kategorie typu ano / ne. Nominální data – více kategorií, které nelze vzájemně seřadit. Nemá smysl ptát se na relaci větší/menší. Ordinální data – více kategorií, které lze vzájemně seřadit. Má smysl ptát se na relaci větší/menší. Tomáš Pavlík Biostatistika Kvalitativní data – příklady Binární data diabetes (ano/ne) pohlaví (muž/žena) stav (ženatý/svobodný) Nominální data krevní skupiny (A/B/AB/0) stát EU (Belgie/…/Česká republika/…/Velká Británie) stav (ženatý/svobodný/rozvedený/vdovec) Ordinální data stupeň bolesti (mírná/střední/velká/nesnesitelná) spotřeba cigaret (nekuřák/ex-kuřák/občasný kuřák/pravidelný kuřák) stadium maligního onemocnění (I/II/III/IV) Tomáš Pavlík Biostatistika Kvantitativní data Kvantitativní data poskytují větší informaci než data kvalitativní. Spojitá data poskytují větší informaci než data diskrétní. Větší informace znamená, že nám stačí méně pozorování na detekci určitého rozdílu (pokud ten rozdíl samozřejmě existuje). Kvůli interpretaci je někdy výhodné kvantitativní data agregovat do kategorií (např. věk) – tímto krokem však ztrácíme část informace. Zpětně nejsme schopni data rekonstruovat. Diskrétní data Spojitá data Kategoriální data Kategoriální data Tomáš Pavlík Biostatistika Kolikrát ? O kolik ? Větší, menší ? Rovná se ? Typy dat dle škály hodnotInformačníhodnotadat Poměrová Intervalová Ordinální Nominální Data Otázky Příklady Glykémie, váha Teplota ve °C PS, kouření Pohlaví, KS Tomáš Pavlík Biostatistika Další typy dat – odvozená data Pořadí (rank) – místo absolutních hodnot známe někdy pouze jejich pořadí. Jedná se sice o ztrátu určitého množství informace, nicméně i pořadí lze v biostatistice využít. Procento (percentage) – sledujeme-li např. zlepšení v určitém parametru, je výhodné sledovat procentuální zlepšení. Př.: ejekční frakce levé srdeční komory. Podíl (ratio) – mnoho indexů je odvozeno jako podíl dvou měřených veličin. Př.: BMI. Míra pravděpodobnosti (rate) – týká se výskytu různých onemocnění, kdy počet nových pacientů v daném čase (studii) je vztažen na celkový počet zaznamenaných osobo-roků. Př.: výskyt nádorového onemocnění u pacientů ve studii. Skóre (score) – jedná se o uměle vytvořené hodnoty charakterizující určitý stav, který nelze jednoduše měřit jako číselné hodnoty. Př.: indexy kvality života. Vizuální škála (visual scale) – pacienti často hodnotí svoje obtíže na škále, která má formu úsečky o délce např. 10 cm. Př.: hodnocení kvality života. Tomáš Pavlík Biostatistika Další typy dat – odvozená data Tomáš Pavlík Biostatistika Absolutní vs. relativní četnost Vyjádření výsledků v relativní formě (procento) má často příjemnou interpretaci, ale může být zavádějící. Relativní vyjádření účinnosti by mělo být vždy doprovázeno absolutním vyjádřením účinnosti. Příklad: Srovnání účinnosti léčiva ve smyslu prevence CMP u kardiaků. Studie 1: Výskyt CMP ve skupině A je 12 %, ve skupině B je 20 %. Relativní změna v účinnosti = 40 %; absolutní změna = 8 %. Studie 2: výskyt CMP ve skupině A je 0,9 %, ve skupině B je 1,5 %. Relativní změna v účinnosti = 40 %; absolutní změna = 0,6 %. Výsledkem je rozdílný přínos léčby při stejné relativní účinnosti. Tomáš Pavlík Biostatistika Další typy dat – cenzorovaná data Cenzorovaná data charakterizují experimenty, kde sledujeme čas do výskytu předem definované události. V průběhu sledování událost nemusí nastat u všech subjektů. Subjekty však nelze vinit z toho, že jsme u nich nebyli schopni danou událost pozorovat a už vůbec je nelze z hodnocení vyloučit. O čase sledování takového subjektu pak mluvíme jako o cenzorovaném. Toto označení indikuje, že sledování bylo ukončeno dříve, než u subjektu došlo k definované události. Nevíme tedy, kdy a jestli vůbec daná událost u subjektu nastala, víme pouze, že nenastala před ukončením sledování. Tomáš Pavlík Biostatistika Další typy dat – cenzorovaná data Úmrtí Úmrtí Ukončení studie Ztracen ze sledování Nepozorované časy úmrtí 0 t t1 t2 t3 t4 c3 c4 3. Vizualizace a popis různých typů dat Tomáš Pavlík Biostatistika Reálná data Tomáš Pavlík Biostatistika Proč je popis a vizualizace dat třeba? Chceme zpřehlednit pozorovaná data – ve vhodných grafech. Chceme zachytit případné odlehlé a extrémní body nebo nečekané, nelogické hodnoty. Chceme popsat naměřené hodnoty. Chceme vypočítat vhodné sumární statistiky, které budou pozorovaná data dále zastupovat při prezentaci, srovnáních apod. Chceme pozorovanou informaci „uložit“ v zástupných statistikách, použití všech pozorovaných dat je nepraktické až nemožné. Tomáš Pavlík Biostatistika Jaké jsou výstupy popisné analýzy? Obecně neformální, jde o shrnutí pozorovaného a ne o formální testování. Vztahují se pouze na pozorovaná data (respektive na experimentální vzorek). Mohou sloužit jako podklad pro stanovení hypotéz. Tomáš Pavlík Biostatistika Co chceme u dat popsat? Kvalitativní data – četnosti (absolutní i relativní) jednotlivých kategorií. Kvantitativní data – těžiště a rozsah pozorovaných hodnot. Tomáš Pavlík Biostatistika Popis „těžiště“ – míry polohy Mějme pozorované hodnoty: Seřaďme je podle velikosti: Minimum a maximum – nejmenší a největší pozorovaná hodnota nám dávají obraz o tom, kde se na ose x pohybujeme. Průměr – charakterizuje hodnotu, kolem které kolísají ostatní pozorované hodnoty. Je to fyzikální obraz těžiště stejně hmotných bodů ose x. Medián – je to prostřední pozorovaná hodnota. Dělí pozorované hodnoty na dvě půlky, půlka hodnot je menší a půlka hodnot je větší než medián. ∑= = n i ix n x 1 1 nxxx ,...,, 21 )()2()1( ... nxxx ≤≤≤ )(max )1(min nxx xx = = ( ) )(~ ~ )12/()2/(2 1 2/)1( + + += = nn n xxx xx pro n liché pro n sudé Tomáš Pavlík Biostatistika Výpočet mediánu Příklad 1: N = 8 (n + 1) / 2 pozice je „mezi“ 4. a 5. prvkem po seřazení – uděláme průměr Data = 6 1 7 4 3 2 7 8 Seřazená data = 1 2 3 4 6 7 7 8 Medián = (4 + 6) / 2 = 5 Příklad 2: N = 9 (n + 1) / 2 pozice znamená 5. pozice po seřazení Data = 3,0 4,2 1,1 2,5 2,2 3,8 5,6 2,7 1,7 Seřazená data = 1,1 1,7 2,2 2,5 2,7 3,0 3,8 4,2 5,6 Medián = 2,7 Tomáš Pavlík Biostatistika Průměr vs. medián Máme-li symetrická data, je výsledek výpočtu průměru i mediánu podobný. Vše je OK. Systolický tlak u mužů Tlak (mmHg) Početmužů Průměr = 149,9 mmHg Medián = 150,0 mmHg Tomáš Pavlík Biostatistika Průměr vs. medián Nemáme-li symetrická data, je výsledek výpočtu průměru i mediánu rozdílný. Není to OK. Výpočet průměru je v tuto chvíli nevhodný! Příklad 1: známkování ve škole Student A: 1, 1, 1, 1, 2, 1, 1, 1, 1, 1, 1, 1, 1, 5 Průměr = 1,35 Medián = 1,00 Student B: 1, 1, 1, 1, 2, 1, 1, 1, 1, 1, 1, 1, 1, 2 Průměr = 1,13 Medián = 1,00 Příklad 2: plat v ČR v roce 2003 Medián xPrůměr Medián: 12 400 Průměr: 18 697 Kč Tomáš Pavlík Biostatistika Pojem kvantil Ve statistice je kvantil definován pomocí kvantilové funkce, což je inverzní funkce k distribuční funkci – budeme se jí věnovat příště. Laicky lze kvantil definovat jako číslo na reálné ose, které rozděluje pozorovaná data na dvě části: p% kvantil rozděluje data na p % hodnot a (100-p) % hodnot. ( )kp xx =100/ )( )1()(2 1 100/ ++= kkp xxx pro np/100 celočíselné, pak k = np/100; pro np/100 neceločíselné, pak k =  100/np Tomáš Pavlík Biostatistika Kvantil - příklad Máme soubor 20 osob, u nichž měříme výšku. Chceme zjistit 80% kvantil souboru pozorovaných dat. R Výška v cm 170 cm 200 cm 230 cm110 cm 140 cm Průměr těchto dvou 4 / 20 = 20 % hodnot n = 20 16 / 20 = 80 % hodnot = 80% kvantil Tomáš Pavlík Biostatistika Významné kvantily Minimum = 0% kvantil Dolní kvartil = 25% kvantil Medián = 50% kvantil Horní kvartil = 75% kvantil Maximum = 100% kvantil Medián je významná charakteristika vypovídající o „těžišti“ pozorovaných hodnot. Není to ale jenom popisná charakteristika, na mediánu (a kvantilech obecně) je založeno mnoho neparametrických statistických metod. Tomáš Pavlík Biostatistika Popis „rozsahu“ – míry variability Nejjednodušší charakteristikou variability pozorovaných dat je rozsah hodnot (rozpětí) = maximum – minimum. Je snadno ovlivnitelný netypickými (odlehlými) hodnotami. Kvantilové rozpětí je definováno p% kvantilem a (100-p)% kvantilem a je méně ovlivněno odlehlými hodnotami. Speciálním případem je kvartilové rozpětí, které pokrývá 50 % pozorovaných hodnot. Výběrový rozptyl – průměrný čtverec odchylky od průměru. Velmi ovlivnitelný odlehlými hodnotami. Výběrová směrodatná odchylka – odmocnina z rozptylu. Výhodou směrodatné odchylky je, že má stejné jednotky jako pozorovaná data. ∑ ∑= =       − − =− − = n i n i iix xnx n xx n s 1 1 2222 1 1 )( 1 1 Tomáš Pavlík Biostatistika Popis „rozsahu“ – míry variability Příklad čtverců odchylek od průměru pro n = 3. Rozptyl je možno značně ovlivnit odlehlými pozorováními. ∑= − − = n i ix xx n s 1 22 )( 1 1 0,269 0,547 0,638 0,733 x1 x x2 x3 4. Kvalitativní data Tomáš Pavlík Biostatistika Vizualizace a popis nominálních dat Proměnná n % Kategorie 1 10 5.0 Kategorie 2 40 20.0 Kategorie 3 130 65.0 Kategorie 4 20 10.0 Celkem 200 100.0 65.0% 10.0% 5.0% 20.0% 10 40 130 20 0 30 60 90 120 150 1 2 3 4 N Vizualizace sloupcovým / koláčovým grafem – absolutní i relativní četnost. Sumarizace procentuálním výskytem kategorií v tzv. frekvenční tabulce. Smysluplná agregace kategorií zjednodušuje interpretaci i validitu výsledků. K popisu může sloužit i tzv. modus – nejčetnější pozorovaná hodnota. Frekvenční tabulka Sloupcový graf Koláčový graf Tomáš Pavlík Biostatistika Vizualizace a popis ordinálních dat Proměnná n % Kategorie 1 10 5.0 Kategorie 2 40 20.0 Kategorie 3 130 65.0 Kategorie 4 20 10.0 Celkem 200 100.0 65.0% 10.0% 5.0% 20.0% 10 40 130 20 0 30 60 90 120 150 1 2 3 4 N Frekvenční tabulka Sloupcový graf Koláčový graf Vizualizace sloupcovým / koláčovým grafem – absolutní i relativní četnost. Sumarizace procentuálním výskytem kategorií v tzv. frekvenční tabulce. Smysluplná agregace kategorií zjednodušuje interpretaci i validitu výsledků. K popisu může sloužit i tzv. modus, případně medián (pouze dává-li to smysl). Tomáš Pavlík Biostatistika Co je na tom obrázku zavádějící? Tomáš Pavlík Biostatistika Co je na tom obrázku zavádějící? Ve chvíli, kdy obě skupiny mají různý počet pacientů, je srovnání absolutních čísel nekorektní. 5. Kvantitativní data Tomáš Pavlík Biostatistika Frekvenční tabulka pro kvantitativní data 1,21 1,48 1,56 0,31 1,21 1,33 0,33 0,21 1,32 1,11 . . . . n = 100 i-tý interval di ni ni / n % <0 – 0,4) 0,4 20 0,2 20 <0,4 – 0,8) 0,4 10 0,1 10 <0,8 – 1,2) 0,4 40 0,4 40 <1,2 – 1,4) 0,2 20 0,2 20 <1,4 – 1,6) 0,2 10 0,1 10 Celkem 1,6 100 1 100 Primární data Frekvenční tabulka di – šířka intervalu ni – absolutní četnost v daném intervalu ni / n – relativní četnost v daném intervalu Tomáš Pavlík Biostatistika Histogram Histogram je grafický nástroj pro vizualizaci kvantitativních dat (poměrových, intervalových, spojitých i diskrétních). Každá oblast histogramu odráží absolutní nebo relativní četnost na jednotku sledované proměnné na ose x. Histogram není sloupcový graf! Histogram pro relativní četnost: Histogram pro absolutní četnost: i i d nn if / )( = i i d n if =)( Tomáš Pavlík Biostatistika Sumarizace kvantitativních dat histogramem Pozorovaná data: 1,21; 1,48; 1,56; 0,31; 1,21; 1,33; 0,33; 0,21; 1,32 … … n Setřídění dat podle velikosti Vytvoření intervalů na ose x Výpočet relativních nebo absolutních četností f(i) Vykreslení histogramu Tomáš Pavlík Biostatistika Histogram – příklad 50 25 100 100 50 0 20 40 60 80 100 120 n 0 0,4 0,8 1,2 1,4 1,6 0.50 0.25 1.00 1.00 0.50 0 1 n 0 0,4 0,8 1,2 1,4 1,6 Histogram pro relativní četnostHistogram pro absolutní četnost Tomáš Pavlík Biostatistika Histogram – příklad 0.50 0.25 1.00 1.00 0.50 0 1 n 0 0,4 0,8 1,2 1,4 1,6 Histogram pro relativní četnost Jaký obsah má plocha histogramu pro relativní četnost? A proč? Tomáš Pavlík Biostatistika Histogram – příklad 0.50 0.25 1.00 1.00 0.50 0 1 n 0 0,4 0,8 1,2 1,4 1,6 Histogram pro relativní četnost Jaký obsah má plocha histogramu pro relativní četnost? A proč? Histogram lze použít pro odhad hustoty pravděpodobnosti. Je to tedy grafická vizualizace rozložení pravděpodobnosti kvantitativních (zejména spojitých) dat. ∑∑ == i i i i d nn if 1 / )( Tomáš Pavlík Biostatistika Který histogram je správný a proč? Chceme pomocí histogramu vykreslit počty zraněných při automobilových haváriích na předměstí Londýna v roce 1985. Data máme zadána jako počty v daných věkových kategoriích. Tomáš Pavlík Biostatistika Histogram ve skutečnosti Histogram je ve skutečnosti zřídka vyjadřován pomocí výrazů: Daleko častěji se jedná o prosté absolutní nebo relativní počty pozorování v daném intervalu (výhodné kvůli snadné čitelnosti a interpretaci): Důležité však je, aby intervaly měly stejnou šířku, aby výsledky byly srovnatelné! i i d nn if / )( = i i d n if =)( nnif i /)( = inif =)( Tomáš Pavlík Biostatistika 3 intervaly 5 intervalů Počet intervalů určuje kvalitu výstupu 2 6 6 3 7 3 2 1 1 9 0 4 8 12 16 20 1 2 3 4 5 6 7 8 9 1 4.0 4.5 8.0 2.5 1.0 0 4 8 12 16 20 1 - 2 3 - 4 5 - 6 7 - 8 9 - 10 7.0 9.5 3.5 0 4 8 12 16 20 1 - 3 4 - 6 7 - 10 10 intervalů Počtem zvolených intervalů v histogramu rozhodujeme o tom, jak bude vypadat. Při malém počtu můžeme přehlédnout důležité prvky v datech, při velkém zase může být informace roztříštěná. ni /di ni /di ni /di Tomáš Pavlík Biostatistika Krabicový graf – box plot Minimum = 0% kvantil Maximum = 100% kvantil Horní kvartil = 75% kvantil Medián = 50% kvantil Dolní kvartil = 25% kvantil Tomáš Pavlík Biostatistika Co je extrémní (odlehlá) hodnota? Jednoduše řečeno se jedná o netypické pozorování, které nezapadá do pravděpodobnostního chování souboru dat. Definujeme ji jako hodnotu, která leží několikanásobek (3, 5, 7) směrodatné odchylky , respektive kvartilového rozpětí, od průměru, respektive mediánu. Definice je ale vágní, závisí na naší znalosti dané problematiky, které hodnoty jsou či nejsou možné! Tomáš Pavlík Biostatistika Vliv odlehlé hodnoty na popisné statistiky 6.3 7.6 6.3 9.1 4.2 5.8 5.65 6.3 8.6 6 6.2 6.7 4.6 6.25 6.3 4.04 6.3 9.1 6.3 5.2 6.4 5.75 Cílem je určit průměrnou hladinu cholesterolu vybrané populace mužů (hodnoty v mmol/l) 6.3 7.6 6.3 9.1 4.2 5.8 5.65 6.3 8.6 6 6.2 6.7 4.6 6.25 6.3 4.04 6.3 9.1 6.3 5.2 64 5.75 Správnádata Nesprávnádata Průměrná hodnota Směrodatná odchylka 6,32 1,34 Průměrná hodnota Směrodatná odchylka ? ? Která charakteristika se zvýší výrazněji? Průměr nebo směrodatná odchylka? Tomáš Pavlík Biostatistika Vliv odlehlé hodnoty na popisné statistiky 6.3 7.6 6.3 9.1 4.2 5.8 5.65 6.3 8.6 6 6.2 6.7 4.6 6.25 6.3 4.04 6.3 9.1 6.3 5.2 6.4 5.75 Cílem je určit průměrnou hladinu cholesterolu vybrané populace mužů (hodnoty v mmol/l) 6.3 7.6 6.3 9.1 4.2 5.8 5.65 6.3 8.6 6 6.2 6.7 4.6 6.25 6.3 4.04 6.3 9.1 6.3 5.2 64 5.75 Správnádata Nesprávnádata Průměrná hodnota Směrodatná odchylka 6,32 1,34 Průměrná hodnota Směrodatná odchylka 8,94 12,37 Tomáš Pavlík Biostatistika Identifikace odlehlých hodnot Na menších souborech stačí vizualizace. Na větších datových souborech nelze bez vizualizace a popisných statistik. Grafická identifikace: pomocí histogramu a box plotu. Identifikace pomocí popisných statistik: srovnání mediánu a průměru. Tomáš Pavlík Biostatistika Identifikace odlehlých hodnot – příklad 6.3 7.6 6.3 9.1 4.2 5.8 5.65 6.3 8.6 6 6.2 6.7 4.6 6.25 6.3 4.04 6.3 9.1 6.3 5.2 6.4 5.75 6.3 7.6 6.3 9.1 4.2 5.8 5.65 6.3 8.6 6 6.2 6.7 4.6 6.25 6.3 4.04 6.3 9.1 6.3 5.2 64 5.75 Správnádata Nesprávnádata Histogram Histogram Box plot Box plot Tomáš Pavlík Biostatistika Identifikace odlehlých hodnot – příklad 6.3 7.6 6.3 9.1 4.2 5.8 5.65 6.3 8.6 6 6.2 6.7 4.6 6.25 6.3 4.04 6.3 9.1 6.3 5.2 6.4 5.75 Cílem je určit průměrnou hladinu cholesterolu vybrané populace mužů (hodnoty v mmol/l) 6.3 7.6 6.3 9.1 4.2 5.8 5.65 6.3 8.6 6 6.2 6.7 4.6 6.25 6.3 4.04 6.3 9.1 6.3 5.2 64 5.75 Správnádata Nesprávnádata Průměrná hodnota Směrodatná odchylka 6,32 1,34 Průměrná hodnota Směrodatná odchylka 8,94 12,37 Medián 6,30 Medián 6,30 Tomáš Pavlík Biostatistika Reklama na příští týden… Středem zájmu statistiky a biostatistiky je tzv. náhodná veličina. Základní prostor Ω Jev A ω1 R0R0 x1P(A) Náhodná veličina XPravděpodobnost P Tomáš Pavlík Biostatistika Poděkování… Rozvoj studijního oboru „Matematická biologie“ PřF MU Brno je finančně podporován prostředky projektu ESF č. CZ.1.07/2.2.00/07.0318 „Víceoborová inovace studia Matematické biologie“ a státním rozpočtem České republiky