PA039: Architektura superpočítačů a náročné výpočty
Luděk Matýska
Fakulta informatiky MU
Jaro 2015
Luděk Matýska  (Fl MU)
Jaro 2015 1/67
Pravidla hry
• Účast na prednáškach není povinná
• Zkouška
• Pouze písemná, 90 minut
• Termíny budou k dispozici během dubna
• Kolokvium
• Projekt, nutno se přihlásit před koncem března
Luděk Matýska  (Fl MU)
Jaro 2015        2 / 67
High Performance Computing
• Formule 1 v oblasti počítačů
• Velmi drahé stroje, ovšem špičkových parametrů (výkonu)
• Specifické uživatelské skupiny
• Rozsáhlé simulace
• Modelování (automobily, letadla, .. .)
a S jídlem roste chut
• Požadavky rostou rychleji než výkon procesorů
• Roste ale i složitost procesorů
Kvalita programování určuje použitelnost
Luděk Matýska  (Fl MU)
Jaro 2015        3 / 67
High Performance Computing II
• Procesory
• CISC a RISC
• Vektorové procesory
• Streaming procesory (např. GPU)
• Speciální systémy FPGA, .. .).
• Paměti - výkon se zpožďuje za procesory
Luděk Matýska  (Fl MU)
Jaro 2015        4 / 67
HPC-požadavky
• Klesá poměr teoretický_výkon/dosažený_výkon
• Reakce: je třeba lépe pochopit
• architekturu použitého počítače;
• příčiny, proč určitý kód je podstatně rychlejší než zdánlivě ekvivalentní varianta;
» způsoby měření reálného výkonu (programu a/nebo procesoru)
Luděk Matýska  (Fl MU)
Jaro 2015        5 / 67
High Throughput Computing
• Nejvyšší aktuální výkon versus Nejvyšší využití
• dlouhodobé efektivní využití počítačových systémů
• velké množství menších úloh
• Není kritická rychlost zpracování jedné úlohy
• Podstatný celkový čas zpracování
• Efektivita
• maximalizace „investice"
» celková propustnost systému
Luděk Matýska  (Fl MU)
Jaro 2015        6 / 67
PA039: Architektura superpočítačů a náročné výpočty Procesory a paměti
Luděk Matýska
Fakulta informatiky MU
Jaro 2015
Luděk Matýska  (Fl MU)
Proceson
Jaro 2015        7 / 67
Základní aspekty - co určuje výkon
• Latence (zpoždění)
• zpracování/přenos signálů uvnitř procesorů či paměti
• přenos dat mezi procesorem a pamětí
• zpoždění přímo v paměti
• Rychlost obnovení (cycle times)
» rychlost přepínání obvodů
• frekvence obovdů (vnitřní „hodiny")
• obnovení paměti (dynamická pamět)
• Propustnost (rychlost přenosu jednotky dat)
• rychlost přenosu dat na chipu a počet instrukcí per cyklus
• rychlost přenosu mezi komponentami a Granularita
» hustota na chipu
• hustota paměti
• velikost úlohy
Luděk Matýska  (Fl MU)
Proceson
Jaro 2015        8 / 67
Procesory - CISC
Complex Instruction Set Computer
• Příklady:
• PDP 11, VAX, IBM 370, Intel 80x86, Motorola 680x0, . ..
• Princip:
• Nedělej programem to, co může udělat hardware
• Pojem CISC fakticky vytvořen až jako protiklad proti RISC procesorům
Luděk Matýska  (Fl MU)
Proceson
Jaro 2015        9 / 67
Důvody existence
Velikost a rychlost paměti
o Srovnání s rychlostí samotných procesorů
Přímá podpora překladačů
Adresování (přístup k paměti)
Luděk Matýska  (Fl MU)
10 / 67
M i kroprogra mová n í
CISC - složité instrukce
• Řídící část procesoru příliš rozsáhlá
• Mikroinstrukce: Dekompozice na jednodušší instrukce
• Složitá instrukce == mikroprogram Jednodušší návrh hardware
• Instrukce jsou emulovány
Je možno „snadno" změnit instrukční sadu konkrétního počítače =>- rodina počítačů (IBM 360, 370, VAX, . ..)
Nevýhody: příliš složité instrukce, stále složitější analýza instrukcí, zátěž zpětné kompatibility (v rámci rodiny)
Luděk Matýska  (Fl MU)
Proceson
Jaro 2015        11 / 67
Zvyšovaní výkonu
• Rychlost hodin udává výkon procesoru
• Omezeno aktuálními technologickými možnostmi
• Nelze neomezeně zvyšovat
• Závislosti mezi komponentami
• Rychlost šíření signálu
• Řešení: paralelizace procesů
Luděk Matýska  (Fl MU)
Proceson
Jaro 2015        12 / 67
Pipelining
Překrývání instrukcí v různých fázích rozpracovanosti instrukce —
Tři základní oblasti: O Zpracování instrukcí Q Přístupy k paměti O Výpočty v pohyblivé řádové čárce
výsledky
Luděk Matýska  (Fl MU)
Proceson
Jaro 2015        13 / 67
Pipelining II
Běžný rozklad instrukcí (pěti úrovňový pipelining):
Instruction Fetch instrukce je načtena z paměti
Instruction Decode instrukce je rozeznána (dekódována)
Operand Fetch jsou připraveny operandy (načteny z registrů a/nebo paměti)
Execute instrukce je provedena
Writeback výsledky jsou zapsány zpět (do registrů a/nebo paměti)
Jednotlivé instrukce jsou zpracovávány paralelně, s posunem o jednu fázi pipeline.
Luděk Matýska  (Fl MU)
Proceson
Jaro 2015        14 / 67
Pipelining a pamět
• „Neviditelný" pipelining
• Předsunutí čtení (zápisu) z (do) paměti před vlastní instrukci pracující s daty
• „Viditelné" pipelines
• Explicitní instrukce, s přesně definovaným počtem cyklů do dokončení.
• Např. Intel 80860
Luděk Matýska  (Fl MU)
Proceson
Jaro 2015        15 / 67
Procesory - RISC
Reduced Instruction Set Computer
• První RISC: CDC 6600 (Seymour Cray)
• První polovina 60. let (1964)
Explicitní RISC koncept představují osmdesátá léta a Podmínky vzniku RISC systémů
• Zavedení vyrovnávacích pamětí (cache)
• Dramatický pokles ceny a vzrůst velikosti hlavních pamětí
• Lepší pipelining
• Kvalitně optimalizující překladače
Luděk Matýska  (Fl MU)
Proceson
Jaro 2015        16 / 67
RISC podmínky II
• Rychlost přístupu k paměti přestala být (hlavním) úzkým místem
• vužití vyrovnávacích pamětí (cache)
• využití interních registrů (méně přímých přístupů do paměti)
• Velikost programu přestala být podstatná (i rozsáhlé programy se snadno vejdou do paměti)
• Problém: zadržení (stall) při čekání na výsledek předchozí instrukce (v CISC příliš složité vazby)
• Není třeba složitých instrukcí (naopak); čitelnost assembleru přestává být podstatná
Luděk Matýska  (Fl MU)
Proceson
Jaro 2015        17 / 67
Charakteristiky RISC
• Jednotná délka instrukcí
• Pečlivý výběr skutečně používaných instrukcí
• Jednoduché adresní módy
• Architektura Load/Store
• Dostatek registrů
• „Odložené" skoky (delayed branches)
• Příklady:
• Na začátku předchůdci MIPS (Stanford) a SUN SPARC (UoC, Berkeley) architektur
• IBM s její Power Architecture (dnes PowerPC a POWER7) » HP s PA-RISC
• DEC Alpha
a Intel I860 a i960 či Motorola 88000 a ARC, ARM, ...
Luděk Matýska  (Fl MU)
Proceson
Jaro 2015        18 / 67
RISC - pokročilý návrh
• Ideál RISC první generace:
• Jedna instrukce každý tik hodin
• Dnešní realita:
• Více jak jedna instrukce na tik
Luděk Matýska  (Fl MU)
19 / 67
Nové vlastnosti
• Superskalární
• Superpipeline
• (Velmi) dlouhé instrukce ((Very) Long Instruction Word, (V)LIW)
Luděk Matýska  (Fl MU)
Proceson
Jaro 2015        20 / 67
S u perská lá rn í procesory
• Vícenásobné procesní jednotky
• Aritmetické (ALU), Floating point (FPU) a další
• Příklady:
• RS/6000, SuperSPARC a vyšší, Motorola 88110, HP PA 7100 a vyšší, DEC Alpha, MIPS R8000 a vyšší, Intel Pentium, IBM P4, P5
Luděk Matýska  (Fl MU)
Proceson
Jaro 2015        21 / 67
Superskalární procesory - vlastnosti
• Paralelismus v hardware
• Sekvenční programy
• „Automatická" paralelizace technickými prostředky
• Současné načtení více instrukcí
• Instrukce MADD (Multiply Add)
o Operace X*Y+Z
Luděk Matýska  (Fl MU)
Proceson
Jaro 2015        22 / 67
Superpipeline
• Další zjednodušení obvodů
• Rozsáhlejší dekompozice pipeline
• Rychlejší provádění jednotlivých částí
• Výsledkem rychlejší výpočet
• Jiná forma paralelismu
• Nazývány též hluboké (deep) pipelines
Luděk Matýska  (Fl MU) Procesory Jaro 2015        23 / 67
VLIW
• Obdoba superskalárních (mnoho jednotek)
• Paralelizace pod kontrolou překladače
o nárůst složitosti překladačů
• zjednodušený hardware dovoluje vyšší výkon
• rozhodnutí které instrukce smí běžet paralelně je na překladači
• Výhody:
• Jednodušší instrukce
• Není třeba složitý řídící hardware
» Potenciál pro nižší spotřebu energie
• Příklady:
• Intel Í860
• triMedia media processors
• C6000 DSP family (Texas Instruments) a Itanium IA-64 EPIC (částečně)
• Crusoe procesory firmy Transmeta
• Ruské superpočítače Elbrus
Luděk Matýska  (Fl MU)
Proceson
Jaro 2015        24 / 67
RISC - další rysy
• Obcházení registrů
• Přejmenování registrů
• Skoky
• nulování operace
• podmíněné přiřazeni (a = b<c ?   d : e;)
• vícenásobné „předčtení" z paměti
• buffer potenciálních cílů skoku
• předpověd cíle skoku za běhu
• statistická (předem dána)
• dynamická
Luděk Matýska  (Fl MU)
Proceson
Jaro 2015        25 / 67
ANDES
Architecture with Non-sequential Dynamic Execution Scheduling
• Východiska
• Zpomalení způsobeno čekáním na data
• Dynamický paralelismus Příklady
• HP PA 8000, MIPS R10000,
Luděk Matýska  (Fl MU)
Proceson
Jaro 2015        26 / 67
ANDES - Architektura
• Vícenásobné fronty instrukcí
• celočíselná fronta pro celočíselné instrukce
• adresní fronta pro operace Load/Store
• fronta pohyblivé řádové čárky
• Nezávislá pipeline pro každou frontu
• Vlastnosti
• instrukce vybírány podle připravenosti
• není dodrženo pořadí instrukcí v programu
• dokončení instrukcí zajištuje správné uspořádání
Luděk Matýska  (Fl MU)
Proceson
Jaro 2015        27 / 67
ANDES - Spekulativní výpočet
Fetch	Decode				Graduate
		Issue	Execute	Complete	
Luděk Matýska  (Fl MU)
Proceson
Jaro 2015        28 / 67
ANDES - Další vlastnosti
Spekulativní skoky:
a výpočet pokračuje předpovězenou větví • nečeká na výsledek instrukce
Neblokující Load/Store
Přejmenování registrů
Luděk Matýska  (Fl MU)
29 / 67
Pamět
• Organizace paměti:
• řádky a sloupce (matice)
• adresa má dvě části
• page mode - naráz čtena skupina souvisejících bytů
Luděk Matýska  (Fl MU)
Proceson
Jaro 2015        30 / 67
Vlastnosti pamětí
• Přístupová doba (memory access time)
• vystav řádek plus vystav sloupec plus vystav data
• Cyklus paměti (memory cycle time)
• určuje, jak často lze data číst
• Obé závisí na typu paměti (dynamická vs. statická)
Luděk Matýska  (Fl MU)
Proceson
Jaro 2015        31 / 67
Virtuální pamět
• Fyzická vs. logická adresa
• Více adresních prostorů
• Translation Lookaside Buffer (TLB)
• překlad logických adres na fyzické » součást hardware
9 TLB výpadky (misses)
• (Ne)použití v superpočítačích
Luděk Matýska  (Fl MU) Procesory Jaro 2015        32 / 67
Vyrovnávací pamět
• Hit poměr
• Velikosti 4KB-16MB
• Organizace: řádky pevné délky, 16-128 bytů
• Typy:
• přímo adresovatelná (direct mapped)
• množinově (částečně) asociativní (set-associative)
• plně asociativní (fully-associative)
Luděk Matýska  (Fl MU)
Proceson
Jaro 2015        33 / 67
Architektury
• Harvard Memory Architecture
• oddělení paměti pro data a pro instrukce
• Programově ovládaná vyrovnávací pamět
• řízení u (některých) superskalárních procesorů (DEC Alpha)
Luděk Matýska  (Fl MU)
Proceson
Jaro 2015        34 / 67
Přímo adresovatelná vyrovnávací pamět
• Statické mapování
• každý řádek vyrovnávací paměti odpovídá předem určeným oblastem hlavní paměti
• Rychlé
• Jednoduché obvody
• Potenciálně neefektivní
Luděk Matýska  (Fl MU)
Proceson
Jaro 2015        35 / 67
Plně asociativní vyrovnávací pamět
• Dynamické mapování
• asociativní paměť
• každý řádek vyrovnávací paměti zná adresy „svého" bloku
• současný dotaz na všechny řádky
• výběr řádku pro zneplatnění
• Velmi efektivní
• Velmi složité obvody - drahé
Luděk Matýska  (Fl MU)
Proceson
Jaro 2015        36 / 67
Částečně asociativní vyrovnávací pamět
• Množina přímo adresovatelných vyrovnávacích pamětí
• Kombinace lepších vlastností obou extrémních přístupů
• zpravidla 2 a 4 cestné
Luděk Matýska  (Fl MU)
Proceson
Jaro 2015        37 / 67
Šířka toku dat
• Bandwidth = maximální propustnost pamětového systému
• Měřena v bytech za sekundu
Propustnost není stejná mezi všemi komponentami
• Procesor - vyrovnávací pamět - hlavní pamět - externí pamět
• Zpoždění(Latence)
• Doba mezi časem požadavku a časem přísunu dat
• Zvlášt významná pro přesun malých objemů dat
Luděk Matýska  (Fl MU)
Proceson
Jaro 2015        38 / 67
Prokládaná (Interleaved) pamět
• Rozdělení na menší bloky
• Následující adresy mapovány do různých bloků
• Umožňuje okamžitý přístup
• Běžné dvou až osminásobně prokládané pamětové subsystémy
• superpočítače mají vícenásobné prokládání
o Příklad: Convex C3 s 256 násobným prokládáním
• Hodiny 16 ns
• Opakovaný přístup k témuž banku: 300 ns (téměř 20 násobné zrychlení)
• Vyšší latence
• Odstíněna použitím pipeline
Luděk Matýska  (Fl MU)
Proceson
Jaro 2015        39 / 67
Přeskládání přístupů k paměti
• Předchůdce ANDES
• Minimalizace následných přístupů do týchž banků paměti
• Kontrola závislostí Load a Store při běhu programu
• Příklad: Motorola 88110
Luděk Matýska  (Fl MU)
Proceson
Jaro 2015        40 / 67
Procesor MIPS R8000
• Zaveden 1993
• Čtyřnásobná superskalární architektura, max 6 operací/cyklus
• Zdvojená ALU, zdvojená FPU a dvě Load/Store jednotky
• FPU s IEEE-754 standardní aritmetikou s nepřesným přerušením
• 32 registrů (64 bit) pro celočíselné a 32 registrů (64 bit) pro float operandy
• Podmíněné move instrukce (pro IF příkazy)
• Plně 64bitová architektura
• 128-bit datová sběrnice
• 40 bitová adresní sběrnice (max 1TB fyzické paměti)
• TLB dvoucestný, s 384 položkami
Luděk Matýska  (Fl MU)
Proceson
Jaro 2015        41 / 67
MIPS R8000 (II)
• Vyrovnávací paměti
» 16 KB l-cache (instrukce)
• 16 KB D-cache (dvoucestná, pouze pro celočíselná data)
• 2 KB branch prediction cache
• 4 MB streaming cache (výpočty v pohyblivé čárce)
MIPS R8000 - l-Cache
• Vyrovnávací pamět instrukcí
• Přímo adresovatelná
• 1024 položek po 128 bitech
a Adresována i označena (tagged) virtuální adresou
• Obchází TLB
• tag RAM - 512 položek (pro každý řádek)
• příznak
• ASI D (Adress space identifier)
ASID rozlišuje shodné virtuální ale různé fyzické adresy
• bit platnosti
• dva bity oblasti
Luděk Matýska  (Fl MU)
Proceson
Jaro 2015        43 / 67
MIPS R8000 - D-Cache
• Vyrovnávací pamět pro data
• Přímo adresovaná
• Dva paralelní přístupy
• 2 load nebo jedna load a jedna store instrukce současně
• Adresována virtuální, označena fyzickou adresou
• Write-through protokol
Luděk Matýska  (Fl MU)
Proceson
Jaro 2015        44 / 67
MIPS R8000 (IV)
Srovnání vyrovnávacích pamětí
Parametr	l-cache	Branch	D-Cache	TLB
Umístění	IU	IU	IU	IU
Velikost	16 KB	2 KB	16 KB	
Položka	128 bit	16 bit	64 bit	
Počet položek	1024	1024	2048	384
Počet portů	jeden	jeden	dva	dva
Mapování	přímé	přímé	přímé	3-cestné
Index	Virtuální	Virtuální	Virtuální	Virtuální
Tag	Virtuální	N/A	Fyzická	N/A
Přístup	jeden cyklus	jeden	jeden	jeden
Šířka	128 bit	16 bit	64 bit	
Propustnost	1,2 GB/s	159 MB/s	1,2 GB/s	
Řádek	32 bytů	N/A	32 bytů	
Miss penalty	11 cyklů	3 cykly		
Luděk Matýska  (Fl MU)
Proceson
Jaro 2015        45 / 67
MIPS R8000 (V) - Rychlost provádění operací
Celočíselné Latence
Add, shift, logical 1
Load, store 1
Multiply 4 (6)
Divide 21   (jmenovatel < 15 bitů)
39 (jmenovatel 16-31 bitů) 73   (jmenovatel 32-64 bitů)
Reálné Latence Zdržení
Move, negate, abs value 1 1
Add, Multiply, MADD 4 1
Load, Store 1 1
Compare, cond. move 1 1
Divide 14 (20) 11 (17)
Square root 14 (23) 11 (20)
Reciprocal 8 (14) 5 (11)
Reciprocal sq. root 8 (17) 5 (14)
Luděk Matýska  (Fl MU) Procesory Jaro 2015        46 / 67
Procesor MIPS RIOOOO
• Zaveden 1996
• ANDES architektura, tři fronty
• Superskalární, 4 instrukce současně
• 2 ALU a 2 FPU (neekvivalentní)
• FPU s IEEE-754 standardní aritmetikou a přesným přerušením
• 32 (64 fyzických) registrů (64 bit) pro celočíselné operandy,
• 32 (64 fyzických) registrů pro float operandy
• přejmenování registrů
• Plně 64 bitová architektura
• 128 bit datová sběrnice, 40 bitová adresní sběrnice
• TLB plně asociativní, 64 položek (zdvojených) velikost stránky 4KB-16MB
Luděk Matýska  (Fl MU)
Proceson
Jaro 2015        47 / 67
MIPS RIOOOO (II)
• Vyrovnávací paměti
• 32 KB l-cache (2-set associative)
• 32 KB D-cache (dvoucestná, 2-set associative)
• předpověď skoků (4 úrovně)
• 1 MB L2 cache
• Neblokující instrukce load a store
Procesory
jaro 2015       48 / 67
MIPS R10000 (III)
• Výpočetní jednotky
• 2 ALU
• Společně
• Součet, Rozdíl a Logické operace
• Rozdílné
• ALU1: skoky a operace posunu
• ALU2: násobení a dělení (iteračně)
• 2 FPU (Další dvě jednotky (bez pipeline) pro dělení a odmocninu (iteračně))
• FPU1: sčítačka
• FPU2: násobička
Luděk Matýska (Fl
2015       49 / 67
MIPS RIOOOO - Fronty
• Celočíselná
• 16 položek
• až 4 instrukce současně zapsány
• Float
• 16 položek
• až 4 instrukce současně zapsány
• nelze současně zahájit Divide a Square root instrukce
• MADD instrukce projde oběma FPU
Luděk Matýska  (Fl MU)
Proceson
Jaro 2015        50 / 67
MIPS RIOOOO -Fronty (II)
• Adresní
• 16 položek (FIFO)
• instrukce spustitelné v libovolném pořadí
• zápis a vyjmutí musí být sekvenční (zajištěno FIFO bufFerem)
• znovuspuštění instrukce při neúspěchu (cache miss, konflikt, závislost)
Luděk Matýska  (Fl MU)
Proceson
Jaro 2015        51 / 67
MIPS R10000 (V) - Rychlost prováděni operaci
Celočíselné Latence Zdržení
Add, shift, logical, branch   1 1
Load, store 2 1
Multiply (32 bit) 5-6 6
Multiply (64 bit) 9-10 10
Divide (32 bit) 34-35 35
Divide (64 bit) 66-67 67
Int to Float (32 bit) 4 1
Reálné Latence Zdržení
Move, negate, abs value 1 1
Add, Conversion, Mult 2 1
Load, Store 3 1
MADD 4 1
Divide 12 (19) 14 (21)
Square root 18 (33) 20 (35)
Reciprocal sq. root 30 (52) 20 (35)
Luděk Matýska  (Fl MU)
52 / 67
Procesor UltraSPARC-l
• Zaveden 1987 (Spare V9)
• Čtyřnásobná superskalární architektura
• 2 ALU, FPU (2 instrukce), GRU (Grafika)
• 32 FPU (64 bit) registru
• 64bitová architektura; možnost volby little a big endianu
• 128 bitová datová sběrnice, 41 bitů fyzická adresa, 44 virtuální adresa
• 64 položek v TLB, stránky s 8 K, 64 K, 512 K nebo 4 MB
• Visual Instruction Set
Luděk Matýska  (Fl MU)
Proceson
Jaro 2015        53 / 67
UltraSPARC-l (II)
• Vyrovnávací paměti
• 16 KB neblokující D-cache
• 16 KB l-cache (s predikcí skoku)
• 0,5-4 MB L2 cache (propustnost 3,2 GB/s)
• Blokující load/store instrukce
UltraSPARC-l - výpočetní jednotky
• FPU
» Dělení a odmocnina samostatné (mimo FPU pipeline)
• 12 (22) cyklů pro jednoduchou (dvojnásobnou) přesnost
• neblokují pipelinované FPU instrukce
• přesná přerušení
• GRU
• 16 a 32 bitové shlukované sčítání a boolovské instrukce
• 8 a 16 bitové násobení
• skládání a rozbor dat
• přímý přístup k (grafické) paměti obcházející D-cache » přímá podpora ,,motion compensation".
Luděk Matýska  (Fl MU)
Proceson
Jaro 2015        55 / 67
Intel a AMD
• 32bitová architektura (IA32) CISC
• Vychází z lôbitového 8086 + 8087 a 80286
• 80386 (Í386), Í486, Pentium (Í586), . ..
• 2001: Itanium (IA64)
o nově navržená, zpětně nekompatibilní 64bitová architektura
• spolupráce s HP, převzata řada znaků RISC
• 2003-2004: AMD Opteron a Intel Xeon Nocona
• konzervativní rozšíření IA32
• AMD64, EM64T/lntel64, neutrálně x86-64
Luděk Matýska  (Fl MU)
Proceson
Jaro 2015        56 / 67
Intel Itanium
• Vlastnosti 1. generace (do 2001)
• spekulativní vyhodnocení, predikce skoků, přejmenování registrů
• hrubozrnný multithreading
• 128 64 bit int a 128 82 bit float registrů » až 6 instrukcí v taktu
• 6 ALU jednotek, 4 MADD jednotky
• speciální instrukce pro multimédia apod.
• hardwarová podpora virtualizace
• pomalá emulace IA32, chybějící kompilátory, průměrný výkon
• Druhá generace (2002-2010)
• společný vývoj s HP
a určen spíše pro podnikové systém ynež HPC
• poslední verze (Tukwila) na 65nm
• Intel QuickPath propojení (místo sběrnice)
» výrazné posílení pamětového subsystému, 4 jádra
• Itanium 9500 (2012)
• 32nm, 8 jader, až 54 MB vyrovnávací pamět
• naznačena postupná konvergence s Intel Xeon procesory
Luděk Matýska  (Fl MU) Procesory Jaro 2015        57 / 67
Současné procesory x86-64
• Označení Šandy Bridge (32nm) a Ivy Bridge (22nm)
• pamět
• 3-4 paměťové kanály
• 32+32 kB LI cache, 4/8 čestná asociativní, privátní
• 256 kB L2 cache, 8 čestná, privátní
• až 24 MB L3 cache, 16 čestná, sdílená mezi jádry
• 4-8 jader, hyperthreading
• cca. 10 paralelních výkonných jednotek
• buffer cílů skoku
• fúze instrukcí (např. porovnání + skok)
• dekódování na mikroinstrukce (podobné MIPS), mikrofúze
• out-of-order spekulativní vyhodnocení
• AES instruction set, SHA-1
• Advanced Vector Extensions, 256bitové instrukce
Luděk Matýska  (Fl MU)
Proceson
Jaro 2015        58 / 67
Inter Xeon Phi™ Coprocessor Block Diagram
IBM Powerľ procesor
vyvíjen pro HPC, až 8 jader
• 12 procesních jednotek, 4 vlákna na jádro Parametry (45nm)
• 256 KB L2 na jádro
• 32 MB eDRAM sdílená L3 přes chip
• Duální DDR3 pamětové kontroléry
• 100 GB/s udržitelná propustnost na chip o 360GB/s SMP propustnost per chip
• frekvence až 4,25 GHz (kapalinou chlazené)
Luděk Matýska  (Fl MU)
60 / 67
Powerľ
«4*1
Core	H B4 4	
		
		
		
		
		
L li Ľ ^ ľ hí ^ —c Ch p I -r^-r; c nn-=- ľ-:
Mem CtH
12 Cm^iČ ] rTFíTľu^-
Cor«
ft
Cor*
t* U u u u
i
Luděk Matýska  (Fl MU)
Procesory
Jaro 2015        61 / 67
					
P0WER8 Innovation			P0WER7	P0WER7+ 2012	POWERB
	POWERS 2004	POWERS 2007			
					
					
Technology	130nm SOI	65nm SOI	45nm SOI eDRAM	32nm SOI eDRAM	22nm SOI eDRAM
Compute Cores	2	2	8	e	12
Threads	SMT2	SMT2	3MT4	SMT4	SMT8
Caching					
On-chip	19MB	8MB	2 + 32MB	2 + 80MB	6+ 96MB
Ofi-chip	36MB	32MB	None	None	12AMB
Bandwidth					
Sus\. Mem.	15GB/S	30GB/3	100GB/3	100GB/S	230GB/8
Peak I/O _	3GB/s	IOGB/3		20GB/3	4SGBÍ3
Luděk Matýska  (Fl MU) Procesory Jaro 2015        62 / 67
Power8
Tec hnol og y
-   Z?nni SOI, eljRAM, 15 ML 650mm2
P0WER8 Core
Execution Improvement vs. POWER7
• SMT4-» SMT8
• 8 dispatch
• 10 issue
• 16 execution pipes:
• 2 FXU, 2 LSU, 2 LU, 4 FPU, 2VMX, 1 Crypto, 1 DFU, 1 CR, 1 BR
• Larger Issue queues (4 x 16-entry)
• Larger global completion, Load/Store reorder
• Improved branch prediction
• Improved unaligned storage access
ISU
IFU
FXU
DFU
vsu
LSU
Larger Caching Structures vs. POWER7
• 2x L1 data cache (64 KB)
• 2x outstanding data cache misses
• 4x translation Cache
Wider Load/Store
• 32B -> 64B L2 to L1 data bus
• 2x data cache to execution dataflow
Enhanced Prefetch
• Instruction speculation awareness
• Data prefetch depth awareness
• Adaptive bandwidth awareness
• Topology awareness
Core Performance vs. POWER7 ~1.6x Single Thread ~2x Max SMT
Luděk Matýska  (Fl MU)
64 / 67
Víceprocesorové systémy
o Frekvenci už nelze příliš zvyšovat
o Zvyšování výkonu zvýšením počtu jader o Propojení více procesorů (socketů)
Luděk Matýska  (Fl MU) Procesory Jaro 2015        65 / 67
Víceprocesorové systémy
• Míra škálování (počet socketů)
• AMD: 4, Intel 8, IBM 32
• vlastní řešení HP (Intel) 8, Bull 16, SGI ~100
• Distribuovaná pamět
• centralizovaná by byla úzkým místem
• N UMA (Non-Uniform Memory Architecture)
Luděk Matýska  (Fl MU)
Proceson
Jaro 2015        66 / 67
Víceprocesorové systémy
• Koherence cache
• přečtu, co jsem sám zapsal
• přečtu, co zapsal dříve někdo jiný o pořadí zápisů vidí všichni stejné
• Stavy řádků cache
• uncached, shared, modified, .. .
• Protokoly udržování koherence
• adresářové
• snooping
Luděk Matýska  (Fl MU)
67 / 67