C2142 Návrh algoritmů pro přírodovědce 2. Úvod do složitosti Tomáš Raček Jaro 2017 Hledání nejčastějších slov – frequent_words Zadání. Nalezněte v textu řetězce délky k s nejvyšším počtem výskytů. frequent_words(text, k) 1. Pro každý podřetězec délky k řetězce text spočítej jeho výskyt pomocí funkce pattern_count(text, pattern) 2. Urči nejvyšší nalezenou četnost 3. Vrať řetězce s touto nejvyšší četností Praktický test. • krátké řetězce – frequent_words uspokojivě funguje • dlouhé řetězce – nepoužitelné, čas výpočtu neodpovídá odhadu frequent_words – doba výpočtu Pozorování • doba výpočtu je úměrná velikosti vstupních dat • závislost není nutně lineární – výpočet na 1000krát větší úloze nemusí trvat 1000krát déle • na různých strojích/architekturách různé časy výpočtu • Thinkpad T430s: 7 s • Thinkpad X200s: 14 s Důsledek (1). Nutná hlubší analýza frequent_words. Důsledek (2). Porovnání náročnosti algoritmů podle času výpočtu není vhodné, potřebujeme aparát nezávislý na konkrétním stroji/architektuře. Složitost Složitost algoritmu. Zaveďme složitost algoritmu jako funkci f(n), kde n je velikost vstupu. Návrh. f(n) určuje počet jednoduchých operací daného algoritmu pro vyřešení problému o velikosti n. • jednoduché operace ≈ instrukce CPU (např. sečtení nebo porovnání dvou čísel, AND/OR,…) • řešení nezávislé na architektuře Důsledek. Porovnání efektivity algoritmů lze zjednodušeně převést na porovnání jejich složitostí. Asymptotická složitost – definice Formální definice O(g) = { f | ∃c ∈ R+ , ∃n0 ∈ N : ∀n ≥ n0 : 0 ≤ f(n) ≤ c · g(n)} f ∈ O(g) čteme „ f roste asymptoticky nejvýše tak rychle jako g“. Význam konstant c rozdíl pouze v multiplikativní konstantě nepovažujeme za významný, tj. ztotožňujeme např. n2 a 4n2 n0 vztah nemusí platit pro prvních n0 čísel Poznámka. Analogicky lze definovat další množiny: • f ∈ Ω(g) – f roste asymptoticky alespoň tak rychle jako g • f ∈ Θ(g) – f roste asymptoticky právě tak rychle jako g Asymptotická složitost – příklady Rychlost růstu funkcí log n n n log n n2 2n n! pro n → ∞ Příklady Funkce Složitostní třída Pojmenování 2142 O(1) konstantní 2 log n + 4 O(log n) logaritmická 0.5n + log n O(n) lineární n2 − 10n O(n2) kvadratická 6n3 O(n3) kubická 2n − 1 O(2n) exponenciální Poznámka. Ověření, zdali f ∈ O(g), lze provést výpočtem limity limn→∞ f(n)/g(n). Složitost problému Cíl. Snaha o nalezení efektivních algoritmů pro daný problém. Otázka. Lze zrychlovat pořád, nebo existuje nějaký dolní limit? Složitost problému • minimální počet operací potřebný pro vyřešení libovolné instance problému • nutno odvodit teoreticky → mnohdy netriviální • odpovídá složitosti optimálního algoritmu pro daný problém Jak ale poznám optimální algoritmus? Srovnejme odhady složitosti problému Pi a složitosti algoritmů Aj řešící tento problém: P1(n) < . . . < Pk(n) ≤ A1(n) < . . . < Am(n) A je optimální algoritmus, pokud A(n) = Pk(n). Složitost problému – příklady Nalezení nejmenšího prvku pole • je nutné projít všechny prvky pole – Ω(n) operací • algoritmus se složitostí O(n) jistě existuje → složitost problému (= složitost optimálního algoritmu) je lineární Násobení matic • potřeba Ω(n2) operací • naivní algoritmus – O(n3) • Strassenův algoritmus – O(nlog2 7) O(n2,81) • aktuálně nejlepší algoritmus (2014) – O(n2,372...) • nalezení optimálního algoritmu je otevřený problém Prostorová složitost Prostorová složitost. Vedle časové náročnosti algoritmů lze určit i množství paměti, které algoritmus potřebuje pro svůj výpočet. • velikost vstupních (a výstupních) dat neuvažujeme • vyjadřujeme také O-notací In situ algoritmus vyžaduje navíc pouze O(1) paměti. • výpočet průměrné hodnoty prvků v poli • naivní násobení matic • … Otázka. Je lepší in situ algoritmus s časovou složitostí O(n2) než algoritmus s časovou složitostí O(n log n) a prostorovou složitostí O(n)? Vztah mezi časem a prostorem Teze. Někdy lze snížit časovou složitost algoritmu zvýšením jeho prostorové složitosti (a naopak). ↑ prostor ↓ čas • softwarová cache • předpočítání (mezi)výsledků ↑ čas ↓ prostor • komprese • zvýšení abstrakce Složitost v praxi Tabulka časů výpočtu algoritmů o složitostech log n, n, n2, 2n a pro vstup velikosti 10, 20, 50 a 1000. Předpokládejme, že jedna iterace algoritmu trvá 1µs. 10 20 50 1000 log n 0,000001 s 0,000001 s 0,000002 s 0,000003 s n 0,00001 s 0,00002 s 0,00005 s 0,001 s n2 0,0001 s 0,0004 s 0,0025 s 1 s 2n 0,001024 s 1,048576 s 35,7 let 3, 4 · 10287 let Poznámka. Stáří vesmíru je odhadováno na 13, 8 · 109 let. pattern_count – analýza def pattern_count(text, pattern): count = 0 for i in range(0, 1 + len(text) - len(pattern)): if text[i : i + len(pattern)] == pattern: count += 1 return count Pozorování • procházíme celkem |text| − |pattern| + 1 možných umístění • každé porovnání dvou řetězců obnáší nejvýše |pattern| porovnání jednotlivých znaků Závěr. Počet kroků, které vykoná funkce pattern_count, lze vyjádřit jako O(|pattern| · (|text| − |pattern| + 1)). frequent_words – analýza I def frequent_words(text, k): counts = dict() frequent_patterns = set() for i in range(0, len(text) - k + 1): pattern = text[i : i + k] counts[pattern] = pattern_count(text, pattern) max_count = max(counts.values()) for (pattern, count) in counts.items(): if count == max_count: frequent_patterns.add(pattern) return frequent_patterns Pozorování • počet volání pattern_count je |text| − k + 1 • další příkazy nejsou určující pro dobu běhu frequent_words – analýza II Složením předchozích informací dostáváme: frequent_words(text, k) • složitost funkce pattern_count je O(|pattern| · (|text| − |pattern| + 1)) • počet volání pattern_count je |text| − k + 1 • platí k = |pattern| • počet kroků celkem: k · (|text| − k + 1) · (|text| − k + 1) = k · (|text| − k + 1)2 V praxi platí k |text|, asymptotická složitost funkce frequent_words je tedy O(k · |text|2). frequent_words – praxe Měření. Doba výpočtu funkce frequent_words(text, k) pro k = 9 a |text| = {1000, . . . , 9000}. Pozorování. Naměřená data lze úspěšně proložit parabolou, což odpovídá odhadnuté složitosti O(k · |text|2). Hledání nejčastějších slov v textu Dosavadní řešení. Jsme schopni navrhnout a implementovat algoritmus se složitostí O(k · |text|2). Zásadní otázka. Jde to i lépe? Alternativní návrh. Počítání četností podřetězců při průchodu textem 1. Procházej vstupní text postupně po podřetězcích délky k 1.1 Pokud se konkrétní podřetězec vyskytl poprvé, nastav jeho četnost na 1, jinak ji zvyš o 1 2. Urči nejvyšší nalezenou četnost 3. Vrať řetězce s touto nejvyšší četností faster_frequent_words Jak ukládat pro každý řetězec jeho četnost? • počet různých řetězců délky k z písmen A, C, G, T je 4k • každému tomuto řetězci lze přiřadit číslo od 0 do 4k − 1 Příklad pro k = 3: AAA → 0, AAC → 1, AAG → 2, . . . , TTT → 63 Příklad převodu řetězce na číslo. A → 0, C → 1, G → 2, T → 3. ACCTG → A · 44 + C · 43 + C · 42 + T · 41 + G · 40 ACCTG → 0 + 64 + 16 + 12 + 2 ACCTG → 94 Implementace. Vytvořím pole o velikosti 4k, kde budu ukládat četnosti jednotlivých řetězců. Převod řetězce na číslo – implementace def pattern2number(pattern): characters = "ACGT" if pattern == "": return 0 else: return 4 * pattern2number(pattern[:-1]) \ + characters.index(pattern[-1:]) def number2pattern(number, k): characters = "ACGT" if k == 0: return "" else: divisor = 4 ** (k - 1) return characters[number // divisor] \ + number2pattern(number % divisor, k - 1) faster_frequent_words – implementace def computing_frequencies(text, k): frequency_array = [0] * (4 ** k) for i in range(len(text) - k + 1): pattern = text[i: i + k] frequency_array[pattern2number(pattern)] += 1 return frequency_array def faster_frequent_words(text, k): frequent_patterns = set() frequency_array = computing_frequencies(text, k) max_count = max(frequency_array) for i in range(0, 4 ** k): if frequency_array[i] == max_count: frequent_patterns.add(number2pattern(i, k)) return frequent_patterns Složitost faster_frequent_words Složitost jednotlivých fází algoritmu • inicializace pole četností O(4k) • převod řetězce na číslo (a naopak) O(k) • průchod vstupním textem, počítání četností O(k · (|text| − k + 1)) • nalezení nejvyšší četnosti O(4k) • výběr řetězců s nejvyšší četností O(k · 4k) Celková složitost faster_frequent_words. Po úpravě dostáváme složitost O(k · |text| + k · 4k), přičemž paměťová složitost je O(4k). Závěr. Pro k n je faster_frequent_words výrazně rychlejší než frequent_words. A jde to ještě lépe? ;-)