IA039: Architektura superpočítačů a náročné výpočty Paralelní počítače
Luděk Matýska
Fakulta informatiky MU
Jaro 2014
Luděk Matýska  (Fl MU)
Paralelní počítače
Jaro 2014 1/63
Paralelní počítače
• Small-scale multiprocessing
• 2-16 procesoru
• prevážne SMP (sdílená pamět)
• Large-scale multiprocessing
» > 100 (i tisíce) procesorů
• Zpravidla distribuovaná pamět
Luděk Matýska  (Fl MU) Paralelní počítače Jaro 2014        2 / 63
Paralelní počítače (II)
• Architektura
• Single Instruction Multiple Data, SIMD
• Multiple Instruction Multiple Data, MIMD
• Programovací modely
• Single Program Multiple Data, SMPD
• Multiple programs Multiple Data, MPMD
Luděk Matýska  (Fl MU)
Paralelní počítače
Architektura - SIMD
• Procesory synchronizovány
• Všechny vykonávají vždy stejnou instrukci
• Analogie vektorových procesorů
• Jednoduché procesory
• Jednodušší programovací model
Luděk Matýska  (Fl MU)
Paralelní počítače
4/63
rchitektura - MIMD
• Plně asynchronní systém
• Procesory zcela samostatné
• Není třeba speciální výroba (ofF-the-she
• Výhody
• Vyšší flexibilita
» Teoreticky vyšší efektivita
• Nevýhody
• Explicitní synchronizace
• Složité programování
Luděk Matýska  (Fl MU)
Paralelní počítače
Komunikační modely
• Sdílená pamět (Shared Memory Architecture)
• Předávání zpráv (Message passing)
Luděk Matýska  (Fl MU)
Paralelní počítače
Jaro 2014        6 / 63
Sdílená pamět
• Pamět odělená od procesorů
• Uniformní přístup k paměti
• Nejsnazší propojení - sběrnice
• „Levná" komunikace
• Složité prokládání výpočtu a komunikace (aktivní čekání)
Luděk Matýska  (Fl MU)
Paralelní počítače
Jaro 2014        7 / 63
Předávání zpráv
• Každý procesor „viditelný"
• Vlastní pamět u každého procesoru
• Explicitní komunikace - předávání zpráv
• Vysoká cena komunikace (výměny dat)
• Možnost prokládání výpočtů a komunikace
Luděk Matýska  (Fl MU)
Paralelní počítače
Jaro 2014        8 / 63
Hybridní systémy
• Nonuniform memory access architecture (NUMA)
• Cache-only memory access architecture (COMA)
• Distributed shared-memory (DSM)
Luděk Matýska  (Fl MU)
Paralelní počítače
Jaro 2014        9 / 63
Non-uniform memory access
• Přístup k různým fyzickým adresám trvá různou dobu
• Umožňuje vyšší škálovatelnost
• Potenciálně nižší propostnost
• Koherence vyrovnávacích pamětí
• ccNUMA
Luděk Matýska  (Fl MU)
Paralelní počítače
Jaro 2014        10 / 63
Cache only memory access
• NUMA s charakterem vyrovnávací paměti
• Data putují k procesorům, které je používají
• Pouze zdánlivá hierarchie
a Systém musí hlídat, že má jedinou kopii
• Experimentální
Luděk Matýska  (Fl MU)
Paralelní počítače
Jaro 2014        11 / 63
Distributed shared-memory
• Distribuovaný systém - cluster
• Lokální pamět každého uzlu
» Vzdálená pamět ostatních uzlů
„Fikce" jedné rozsáhlé paměti
• Hardwarové řešení
• Zpravidla využívá principů virtuální paměti
• Transparentní
• Softwarové řešení
• Knihovna
• Netransparentní, progamátor program musí explicitně přizpůsobit
Luděk Matýska  (Fl MU)
Paralelní počítače
Jaro 2014        12 / 63
Koherence vyrovnávacích pamětí
• Příčiny výpadku vyrovnávací paměti:
• Compulsory miss: 1. přístup k datům
• Capacity miss: nedostatečná kapacita
• Conflict miss: různé adresy mapovány do stejného místa
• Coherence miss: různá data v různých vyrovnávacích pamětích
• Poslední případ se týká m uItiprocesorů
Luděk Matýska  (Fl MU)
Paralelní počítače
Jaro 2014        13 / 63
Řešení problému koherence
• Vyrovávací paměti musí vědět o změně
• Metody založené na broadcastu
• Adresářové metody
Luděk Matýska  (Fl MU)
Paralelní počítače
Jaro 2014        14 / 63
Snoopy cache
• Broadcastový přístup
• Propojovací sítě s „přirozeným" brodcastem - sběrnice
• Každý procesor sleduje všechny přístupy k paměti
Luděk Matýska  (Fl MU)
Paralelní počítače
Jaro 2014        15 / 63
Zneplatnění
• Reakce na změnu dat ve vzdálené (vyrovnávací) paměti
• Řádka v aktuální (naslouchající) vyrovnávací paměti je zneplatněna
• V případě opětného přístupu je přehrána ze vzdálené paměti
Luděk Matýska  (Fl MU)
Paralelní počítače
Jaro 2014        16 / 63
Update
• Řádka je okamžitě obnovena
• Při opětovném přístupu je již k dispozici
• Nevýhody
• Falešné sdílení (nepracují na stejných datech)
• Přílišné zatížení sběrnice
• Nelze rozhodnout, zda update nebo zneplatnění je obecně lepší
Luděk Matýska  (Fl MU)
Paralelní počítače
Jaro 2014        17 / 63
Koherence vyrovnávacích pamětí II
• Snoopy schéma založené na broadcastu
• Nepoužitelné u složitějších propojovacích sítí
• Není rozšiřitelné (scalable)
• Redukce „oslovených" vyrovnávacích pamětí - Adresáře
• Položka u každého bloku paměti
• Odkazy na vyrovnávací paměti s kopií tohoto bloku
• Označení exkluzivity (právo pro čtení)
Luděk Matýska  (Fl MU)
Paralelní počítače
Jaro 2014        18 / 63
Adresářové přístupy
• Tři základní schémata
• Plně mapované adresáře
• Částečně (Limited) mapované adresáře
• Provázané (chained) adresáře
• Zhodnocení vlastností
• Na základě velikosti potřebné paměti
• Na základě složitosti (počtu příkazů) protokolu
Luděk Matýska  (Fl MU)
Paralelní počítače
Jaro 2014        19 / 63
Plně mapované adresáře
• Každá adresářová položka má tolik údajů, kolik je vyrovnávacích pamětí (procesorů)
• Bitový vektor „přítomnosti"
• Nastavený bit znamená, že příslušná vyrovnávací data má kopii bloku paměti
• Příznak exkluzivity
• Stačí jeden na blok
• Jen jedna vyrovnávací pamět
• Příznaky v každé vyrovnávací paměti (každý blok)
• Příznak platnosti
• Příznak exkluzivity
Luděk Matýska  (Fl MU)
Paralelní počítače
Jaro 2014        20 / 63
Omezené adresáře
• Plné adresáře velmi pamětově náročné
• Velikost paměti: P2M/B
• P je počet vyrovnávacích pamětí
• M velikost hlavní paměti
• B velikost bloku
• Data nejsou zpravidla široce sdílena
• Většina adresářových bitů má hodnotu nula a Použití přímých odkazů
• Nebude již stačit jeden bit
Luděk Matýska  (Fl MU)
Paralelní počítače
21 / 63
Omezené adresáře I
• Množina ukazatelů na vyrovnávací paměti
• Dynamická alokace dle potřeby
• Vlastnosti
• Počet bitů ukazatele: log2 P
• Počet položek v poolu ukazatelů: k
• Výhodnější než přímo mapovaná: pokud k < lo£ p
• Informovány jen explicitně uvedené vyrovnávací paměti
Luděk Matýska  (Fl MU)
Paralelní počítače
Jaro 2014        22 / 63
Přetečení
• Pokud přestanou stačit položky
• Příliš mnoho sdílených bloků
• Možné reakce
• Zneplatnění všech sdílených (brodcast, D i r; B)
• Výběr jedné položky (i náhodně) a její zneplatnění (bez broadcastu, DinNB)
Luděk Matýska  (Fl MU)
Paralelní počítače
Jaro 2014        23 / 63
Další schemata
• Coarse-vector (DirjCVr)
• r je velikost regionu (více procesorů), kterému odpovídá jeden bit (tedy více procesorů)
• Přepnutí interpretace při přetečení
• Omezený broadcast všem procesorům v oblasti.
• LimitLESS: programové přerušení při přetečení
Luděk Matýska  (Fl MU)
Paralelní počítače
Jaro 2014        24 / 63
Provázaná schemata
• Cache-Based linked-list
• Centrálně pouze jediný ukazatel
• Ostatní ukazatele svázány s vyrovnávací pamětí
• Vyrovnávací paměti „provázaný" ukazateli
• Výhody
• Minimalizace pamětových nároků
• Nevýhody:
• Složitý protokol.
• Zvýšená komunikace (více zpráv než nutno)
• Zápis je delší (sekvenční procházení seznamu)
Luděk Matýska  (Fl MU)
Paralelní počítače
Jaro 2014        25 / 63
Hierarchické adresáře
• Použité v systémech s vícenásobnými sběrnicemi
• Hierarchie vyrovnávacích pamětí
• Vyšší úroveň na každém propojení sběrnic
• Vyšší paměťové nároky
• Vyšší úroveň musí držet kopie paměťových bloků sdílených nižší úrovní o Není třeba rychlá pamět
• V principu hierarchie snoopy protokolů
Luděk Matýska  (Fl MU)
Paralelní počítače
Jaro 2014        26 / 63
Rozšiřitelnost (Scalability)
• Není jednotná definice
• Používané základní formulace - rozšiřitelný je takový systénm, pro nějž platí:
• Výkon roste lineárně s cenou
• Je zachován konstantní poměr Cena/Výkon
• Alternativní parametr - Míra rozšiřitelnosti
• Změna výkonu přidáním procesoru
• Změna ceny přidáním procesoru
• Smysluplný rozsah počtu procesorů
Luděk Matýska  (Fl MU)
Paralelní počítače
Jaro 2014        27 / 63
Zrychlení
S(N) =
EXEC
(1)
1 EXEC(N)
Tcomp(l) ~r" TComm(l) ■ comp (N) + ■ comm
(N)
• Ideální zrychlení vyžaduje
Tcomp(N) = Tcomp(l)/N ■ comm
(N) =
■ comm (1)/N
Luděk Matýska  (Fl MU)
Paralelní počítače
Jaro 2014        28 / 63
Zrychlení - komentář
• Teoretický pojem, realita závisí na aplikaci
• Různé hodnoty pro různé aplikace
• Vliv paralelizovatelnosti problému (Amdalův zákon)
Luděk Matýska  (Fl MU)
Paralelní počítače
Jaro 2014        29 / 63
Rozšiřitelné propojovací sítě
• Požadavky na ideální sít:
• Nízká cena rostoucí lineárně s počtem procesorů (N)
• Minimální latence nezávislá na N
• Propustnost rostoucí lineárně s N
Luděk Matýska  (Fl MU)
Paralelní počítače
Jaro 2014        30 / 63
Vlastnosti sítí
• Tři základní komponenty
• Topologie
• Přepínání dat (jak se data pohybují mezi uzly) a Směrování dat (jak se hledá cesta mezi uzly)
Luděk Matýska  (Fl MU)
Paralelní počítače
Jaro 2014        31 / 63
Propojovací sítě
• Rozlišujeme následující základní parametry
• Velikost sítě - počet uzlů N
• Stupeň uzlu d
• Poloměr sítě D
• Nejdelší nej kratší cesta
• Bisection width B
• Redundance sítě A
• Minimální počet hran, které je třeba odstranit, aby se sít rozpadla na dvě
• Cena C
• Počet komunikačních linek v síti
Luděk Matýska  (Fl MU)
Paralelní počítače
Jaro 2014        32 / 63
Bisection width
• Šířka rozpůlení
• Minimální počet linek, které je třeba odstranit, aby se systém rozpadl na dvě stejné části
• Bisection bandwidth - propustnost při rozpůlení
• Celková kapacita (propustnost) výše odstraněných linek
• Ideální vlastnost:
• Bisection badnwidth vztažená na procesor je v daném systému konstantní.
Luděk Matýska  (Fl MU)
Paralelní počítače
Jaro 2014        33 / 63
Topologie přepínacích sítí
Klasifikace na základě rozměru
• Jednorozměrné
• Dvourozměrné
• Třírozměrné
• Hyperkrychle
Luděk Matýska  (Fl MU)
Paralelní počítače
34 / 63
Jednorozměrné propojovací sítě
• Linerání pole
• Jednotlivé prvky navázány na sebe
• „Korálky"
• Nejjednodušší
• Nejhorší vlastnosti
Luděk Matýska  (Fl MU) Paralelní počítače Jaro 2014        35 / 63
Dvourozměrné propojovací sítě
• Kruh
• Uzavřené lineární pole
• Hvězda
• Strom
• Snižuje poloměr sítě (2 log ^-^)
• Stále špatná redundance a bisection (band)width
• Tlustý strom (fat tree)
• Přidává redundantní cesty ve vyšších úrovních
Luděk Matýska  (Fl MU)
Paralelní počítače
Jaro 2014        36 / 63
Dvourozměrná mřížka
• Velmi populární
• Dobré vlastnosti
• Poloměr 2(N1/2 - 1)
• Bisection N1/2
• Redundance 2
• Avšak vyšší cena a proměnný stupeň uzlu
• Torus
• Uzavřená dvourozměrná mřížka
• Poloměr N1/2
• Bisection 2N1/2
• Redundance 4
• Vyšší cena - přidá 2N1/2 hran
Luděk Matýska  (Fl MU)
Paralelní počítače
37 / 63
Třírozměrná sít
• Vlastnosti
• Poloměr 3(NV3 _
• Bisection N2/3
• Redundance 3
» Cena akceptovatelná 2(N — N2/3)
• Konstrukčně složitá
Luděk Matýska  (Fl MU)
Paralelní počítače
38 / 63
Hyperkrychle
o Velmi zajímavá topologie o Obecně n-rozměrná krychle o Základní parametry
o Poloměr log N
o Bisection N/2
o Redundance log N
o Vyšší cena (NlogN)/2
o Mřížky speciálními případy hyperkrychl o Snadné nalezení cesty o Binární číslování uzlů
Plně propojené sítě
• Teoretická konstrukce
• Vynikající poloměr (1)
• Neakceptovatelná cena (N * (N — l)/2) a stupeň uzlu (N — 1)
Luděk Matýska  (Fl MU)
Paralelní počítače
Jaro 2014        40 / 63
Prepínaní
• Konkrétní mechanismus, jak se paket dostane ze vstupu na výstup
• Základní přístupy
• Přepínání paketů, store-and-forward
• Přepínaní obvodů
• Virtuální propojení (cut-through)
• Směrování červí dírou (wormhole routing)
Luděk Matýska  (Fl MU)
Paralelní počítače
Jaro 2014        41 / 63
Store-and-forward
• Celý paket se uloží
• A následně přepošle
• Jednoduché (první generace paralelních počítačů)
• Vysoká latence ^ * D
• P je délka paketu, B je propustnost a D je počet „hopů" (vzdálenost)
Luděk Matýska  (Fl MU)
Paralelní počítače
Jaro 2014        42 / 63
Prepínaní okruhů
• Tři fáze
• Ustavení spojení - zahájeno vzorkem (probe)
• Vlastní přenos
• Zrušení spojení
• Výrazně nižší latence ^ * D + ^
• P je v tomto případě délka vzorku a M je délka zprávy (nejsou nutné pakety)
• Pro P << M latence není závislá na délce cesty
Luděk Matýska  (Fl MU)
Paralelní počítače
Jaro 2014        43 / 63
Virtuální propojení
• Zprávu rozdělíme do menších bloků - flow control digits (flits)
• První flits obsahuje informace o cestě (především cílovu ardresu)
• Další flits-y obsahují vlastní data
• Poslední flits ruší cestu
• Posíláme jednotlivé flits-y kontinuálně
o Jsou-li buffery dostatečně velké, odpovídá přepínání okruhů
• Latence ^ * D + M
• HF je délka flitsu, zpravidla HF << M
Luděk Matýska  (Fl MU)
Paralelní počítače
Jaro 2014        44 / 63
Červí díra
• Speciální případ virtuálního propojení
• Buffery mají právě délku flits
• Latence nezávisí na vzdálenosti
a Analogie pipeline
• Paket je rozložen v bufferech několika uzlů - odtud červí díra
• Podporuje replikace paketů
• Vhodné pro multicast a broadcast
Luděk Matýska  (Fl MU)
Paralelní počítače
Jaro 2014        45 / 63
Virtuální kanály
a Sdílení fyzických kanálů
• Několik bufferů nad stejným kanálem
• Flits uložen v příslušném bufFeru
• Využití
• Přetížená spojení
• Zábrana deadlocku
• Mapování logické na fyzickou topologii
o Garance propustnosti systémovým datům
Luděk Matýska  (Fl MU)
Paralelní počítače
46 / 63
Směrování v propojovacích sítích
• Hledání cesty
• Vlastnosti
• Statické směrování
• Zdrojové
• Distribuované
• Adaptivní směrování (vždy distribuované)
• Minimální a ne-minimální
Luděk Matýska  (Fl MU)
Paralelní počítače
47 / 63
Fault tolerance propojovacích sítí
• Kontrola chyb
• Potv rzová n í z p rá v
• Opakované zasílání zpráv
Luděk Matýska  (Fl MU)
Paralelní počítače
Jaro 2014        48 / 63
Zpoždění paměti
• Pamět výrazně pomalejší než procesor
o Cekání na pamět podstatně snižuje výkon systému
• Možná řešení:
• Snížením zpoždění- zrychlení přístupu
• Ukrytím zpoždění- překryv přístupu a výpočtu
Luděk Matýska  (Fl MU)
Paralelní počítače
Jaro 2014        49 / 63
Snížení zpoždění paměti
• NUMA: Nonuniform Memory Access
• Každé logické adrese odpovídá konkrétní fyzická adresa
• COMA: Cache-Only Memory Architecture
• Hlavní pamět je chápána jako attraction memory.
• Řádky paměti se mohou volně přesouvat.
• Mohou existovat sdílené kopie řádků paměti.
Luděk Matýska  (Fl MU)
Paralelní počítače
Jaro 2014        50 / 63
Rekapitulace
Communication to computation ratio	NUMA		COMA	
	Small working set	Large working set	Small working set	Large working set
Low	Good	Medium	Good	Good
High	Medium	Poor	Poor	Poor
Luděk Matýska  (Fl MU)
Paralelní počítače
Jaro 2014        51 / 63
Ukrytí zpoždění paměti
• Modely slabé konzistence
• Prefetch
a Procesory s vícenásobnými kontexty
• Komunikace iniciovaná producentem
Luděk Matýska  (Fl MU)
Paralelní počítače
Jaro 2014        52 / 63
Slabá konzistence
• Nepožaduje striktní uspořádání přístupů ke sdíleným proměným vyjma synchronizačních.
• Release consistency:
• Zavedení operací acquire a release
• Fence operace
• Vynucené dokončení rozpracovaných operací
Luděk Matýska  (Fl MU)
Paralelní počítače
Jaro 2014        53 / 63
Prefetch
• Přesun dat k procesoru s předstihem.
• Binding prefetch
• Data přesunuta až k procesoru
• Možné porušení konzistence
• Nonbinding prefetch
• Data přesunuta pouze do vyrovnávací paměti
• HW Prefetch
• SW Prefetch
• Speciální instrukce prefetch-exclusive: read následovaný příkazem write.
Luděk Matýska  (Fl MU)
Paralelní počítače
Jaro 2014        54 / 63
Procesory s vícenásobnými kontexty
Podpora multitherading Vyžaduje
• Velmi rychlé přepnutí kontextu
• Vysoký počet registru
Řada experimentálních systémů
• HEP (70. léta)
• Tera
• *T
Luděk Matýska  (Fl MU)
Paralelní počítače
55 / 63
Komunikace iniciovaná producentem
• Analogie invalidace a update při cache koherenci
• Specifické využití pro message-passing (Cray T3D) nebo block-copy (počítače se sdílenou pamětí).
• Vhodné např. pro přesun velkých bloků dat či pro synchronizaci zámky (locks).
Luděk Matýska  (Fl MU)
Paralelní počítače
Jaro 2014        56 / 63
Podpora synchronizace
Synchronizace tvoří „horká místa" Základní synchronizační primitivy:
• Vzájemné vyloučení
• Dynamické rozložení zátěže
• Informace o událostech
• Globální serializace (bariéry)
Luděk Matýska  (Fl MU)
Paralelní počítače
57 / 63
Vzájemné vyloučení
• K dané proměnné má v daném okamžiku přístup nejvýše jeden proces
• Univerzální, ovšem zpravidla zbytečně drahé
• Synchronizační konstrukce vyšších jazyků
• Semafory
• Monitory
• Kritické oblasti
• Základem - hardwarová podpora
• test&set instrukce
• test-and-test&set instrukce
Spin waiting protocol
Luděk Matýska  (Fl MU)
Paralelní počítače
Jaro 2014        58 / 63
test&set
• Vlastnosti char *lock;
while (exchange(lock, CLOSED) == CLOSED );
• Busy waiting
• Vysoké požadavky na přenos (časté zneplatnění) u multiprocerů
Luděk Matýska  (Fl MU)
Paralelní počítače
Jaro 2014        59 / 63
test-and-test&set
• Vlastnosti for (;;)
while (*lock == CLOSED);
if (exchange(lock, CLOSED) != CLOSED)
break;
• Využití vyrovnávacích pamětí
• první testy nad sdílenou kopií
Luděk Matýska  (Fl MU)
Paralelní počítače
60 / 63
Použití front
• Výhodnější Collision avoidance schemata
• Queue on lock bit (QOLB) protokol
• Nejefektivnější implementace
• Procesy řazeny do fronty
• Po uvolnění zámku aktivován proces v čele fronty
• Není třeba žádný sdílený přenos dat
Luděk Matýska  (Fl MU)
Paralelní počítače
Jaro 2014        61 / 63
Zámky v multiprocesorech
• Souvisí i s možností dynamického rozložení zátěže
• Využití citace s atomickou operací
• Fetch&Op - čitače, např. Op==Add
fetch&add ( x, a) int *x, a; { int temp;
temp — *x;
*x += a;
return (temp);
}
• Compare&Swap - seznamy
Luděk Matýska  (Fl MU)
Paralelní počítače
Jaro 2014        62 / 63
Použití
Informace o (globálních) událostech používána především producentem jako prostředek, kterým jsou konzumenti informováni o nově dostupných datech, a dále při informaci o globální změně ve skupině ekvivalentních procesů (změna určitého stavu, která musí být oznámena všem procesům).
Luděk Matýska  (Fl MU)
Paralelní počítače
Jaro 2014        63 / 63