Kapitola 5 Základní datové struktury

Data, která budeme zkoumat, většinou netvoří izolované hodnoty (jednotlivá izolovaná čísla), nýbrž větší množství hodnot, které mají nějaký vztah. Výsledkem ekonomického experimentu může být např. datový soubor, který obsahuje pro každý subjekt experimentu identifikační číslo daného subjektu, jeho treatment, identifikaci skupiny, do které patřil a seznam akcí, které zahrál, a výplat, kterých dosáhl. Takový datový soubor můžeme zorganizovat jako tabulku, ve které řádky odpovídají jednotlivých subjektům a sloupce jednotlivým proměnným. Pokud jsou všechny proměnné číselné, je tabulka matice. Alternativně můžeme uspořádat každou proměnnou zvlášť jako jednotlivé vektory. V každém případě však potřebujeme k uchování hodnot získaných z experimentu určitý typ datové struktury.

Zakladni datove struktury, ktere nam R nabizi, lze roztridit podle dvou charakteristik: 1) podle jejich dimensionality na jednorozmerne, dvourozmerne a vicerozmerne objekty a 2) podle homogenity pouzitych datovych typu na homogenni a heterogenni struktury. Jednotlive kombinace uvadi tabulka 5.1. Homogenní struktury mají všechny položky stejného typu, např. celá čísla. Mezi homogenní struktury patří zejména atomické vektory a matice. Heterogenní struktury mohou mít jednotlivé položky různých typů, takže mohou najednou obsahovat např. reálná čísla i řetězce. Mezi nejdůležitější heterogenní struktury patří seznamy a různé typy tabulek, jako jsou tabulky tříd data.frame a tibble. Jednorozměrné datové struktury mají jen jeden rozměr, délku. Sem patří zejména atomické vektory a seznamy (seznamy jsou neatomické vektory). Dvourozměrné struktury mají dva rozměry, takže tvoří tabulku. Nejdůležitější dvourozměrné struktury jsou homogenní matice a nehomogenní tabulky.

Tabulka 5.1: Význam základních logických operací.
dimenze homogenní heterogenní
1 atomický vektor seznam
2 matice tabulka
více pole \(\strut\)

V této kapitole se

  • seznámíte se základními datovými strukturami: atomickými vektory, atomickými maticemi, seznamy a tabulkami třídy data.frame a tibble
  • naučíte převádět data z jedné datové struktury na jinou
  • naučíte se získávat podmnožiny (subsety) těchto struktur
  • dozvíte něco o tom, jaké struktury volit