C2142 Návrh algoritmů pro přírodovědce 6. Vyhledávací stromy, hashovací tabulky, trie. Tomáš Raček Jaro 2021 Nevýhody BST Opakování. Binární vyhledávací strom představuje koncepčně jednoduchou formu indexu nad daty. Jeho hlavní nevýhoda je až lineární výška. Myšlenka. Modifikujme operace přidání a odebrání prvku tak, aby zbytečně nezvyšovaly výšku stromu. AVL stromy AVL strom je binární vyhledávací strom, který navíc splňuje následující podmínku: Pro každý uzel AVL stromu platí, že výška jeho levého a pravého podstromu se liší nejvýše o 1. Poznámka. Definiční podmínka zaručuje, že výška AVL stromu je nejvýše asi 1,5 · log(n), kde n je počet jeho prvků. Implementace. Každý uzel AVL stromu bude mít u sebe navíc i informaci o své výšce. V případě porušení definiční podmínky při některé z operací bude nutné strom upravit. AVL strom – ukázka Operace nad AVL stromy Vyhledání prvku. Úplně stejná operace jako v obyčejném BST. Díky zaručené výšce AVL stromu ovšem nyní nejvýše O(log n). Přidání/odebrání prvku. Probíhá obdobně jako u BST. Pokud je narušena vyváženost AVL stromu (porušení definiční podmínky), probíhá vyvažování pomocí tzv. rotací. Operace nad AVL stromy II Rotace • pouze lokální změna datové struktury • konstantní složitost • při přidání prvku stačí nejvýše 1 • při odebrání prvku je jejich počet omezen výškou stromu Složitost přidání/odebrání prvku v AVL stromu je O(log n). Logaritmická výška I Shrnutí. AVL stromy poskytují z pohledu asymptotické složitosti optimální rozšíření BST. Poznámka. Na BST jsou také založeny např. červeno-černé stromy, které mají logaritmickou výšku (i když větší než AVL), nicméně poskytují v praxi rychlejší vyvažování. Příklad. Uvažme data o velikosti n = 22 000 000 (přibližný počet sloučenin v databázi PubChem). Vybudujeme nad těmito daty index na bázi binárního stromu. • výška úplného binárního stromu by byla 25 • v rámci teorie ideální, v praxi může být i to příliš Logaritmická výška II Nápad. Uvažme vyvážený strom (= s logaritmickou výškou), jehož arita k je větší než 2. • zvolme např. k = 100 • pak výška tohoto stromu pro stejnou velikost dat bude 4 Realizace. Na této myšlence jsou založeny tzv. B stromy. • logaritmická složitost operací • typicky pro velké objemy dat • existují různé varianty (B/B+/B*) Využití B stromů • souborové systémy (NTFS, Ext4, btrfs) • indexy pro databáze Hashovací tabulka Shrnutí. Vyvážené vyhledávací stromy poskytují základní operace v logaritmickém čase. Jde dosáhnout i konstantní složitosti? Nápad. Uvažme pole o velikosti M a tzv. hashovací funkci, která každé hodnotě klíče přiřadí index i do tohoto pole, kde se daná položka bude nacházet. Hashovací funkce – příklad • uvažme klíče k jako přirozená čísla • pak např. i = H(k) = k mod M • konstantní složitost výpočtu indexu Hashovací funkce Ideální případ. Uvažme hashovací tabulku o velikosti M s následujícími vlastnostmi: • počet vkládaných prvků n ≤ M • hashovací funkce má konstantní složitost • hashovací funkce je prostá, tj. ∀k1, k2 : H(k1) = H(k2) → k1 = k2 • pak složitost přidání, vyhledání a odebrání prvku je konstantní Kolize. V praxi ovšem tohoto není často možné dosáhnout, hashovací funkce nebývá prostá → pro dva různé klíče získáme stejnou hodnotu hashovací funkce. Příklady řešení pro n ≤ M • lineární hashování – je-li index i obsazen, zkusím i + 1 atd. • dvojité hashování – při kolizi volím jinou hashovací funkci Řešení kolizí I Řešení kolizí v obecném případě spočívá v možnosti vytvoření spojového seznamu pro každý index pole. Řešení kolizí II Vlastnosti • ideální hashovací funkce rozděluje klíče rovnoměrně • délka každého seznamu je pak průměrně n/M • přidání prvku v O(1) • vyhledání/odebrání prvku ale v O(n) – stejné jako u spojového seznamu V praxi je ale často výrazně lepší než obyčejný spojový seznam. Srovnejme několik příkladů s ideální hashovací funkcí a n = 5000: • M = 1000 • M = 5000 • M = 10000 Závěr. Hashovací tabulka je velmi efektivní, pokud známe rozložení prvků (→ hashovací funkce) a jejich počet (→ velikost tabulky). Hashovací tabulka – poznámky Rozšíření. V případě, kdy není počet prvků znám dopředu, lze měnit velikost i vlastní tabulky. • základem je dynamické pole • je potřeba sledovat zaplnění tabulky, tedy poměr n/M • vysoká zaplněnost přináší nižší výkon • změna velikosti nastává při dosažení zvolené hranice zaplněnosti (např. 2/3 nebo 3/4) Použití • implementuje ADT asociativní pole (slovník), které uchovává dvojice typu (klíč, hodnota) • v Pythonu typ dict, v Javě HashMap, v C++ std::unordered_map Trie Trie (prefixový strom) je stromová datová struktura zejména vhodná pro uložení klíčů, které jsou řetězci. Trie – příklad implementace Příklad. Uvažme řetězce složené ze znaků anglické abecedy • každý uzel trie obsahuje pole 26 ukazatelů na další prvky • v každém uzlu uložíme příznak, který říká, zdali je tento uzel validním klíčem (listy jsou implicitně) Složitost operací • nechť h je délka nejdelšího řetězce • pak trie má výšku h • operace přidání, vyhledání a odebrání prvku mají všechny složitost O(h) • neúspěšné hledání může skončit v kterékoliv úrovni (srovnejme s BST)