Reliability of Digital Systems Redundancy, Spares, and Repairs (2) Redundance, záloha a opravy Fall 2020 Václav Přenosil Design and Architecture of Digital Systems Laboratory prenosil@fi.muni.cz Fall, 2020 Pohotovostní systémy: Úvod Redundance, záloha a opravy Fall 2020 Pohotovostní systémy: Pravděpodobnost bezp. činnosti Redundance, záloha a opravy Fall 2020 Pohotovostní systémy: Pravděpodobnost bezp. činnosti λ1Δt λ2Δt 1 – λ1Δt 1 – λ2Δt 1 Redundance, záloha a opravy Fall 2020 Obrázek 1: Pravděpodobnostní stavový model pro pohotovostní systém Ps0(t=0)=1 Pohotovostní systémy: Pravděpodobnost bezp. činnosti Redundance, záloha a opravy Fall 2020 Ps1(t=0)=0 Pohotovostní systémy: Pravděpodobnost bezp. činnosti •Pokud mají jak online, tak pohotovostní prvky stejnou intenzitu poruch, pak předchozí vzorce mají tvar •Standardní možností v podobných případech je nutno použít l'Hopitalova pravidlo •Vezmeme-li derivaci čitatele a jmenovatele samostatně s ohledem na λ2 a poté vezmeme limit λ2 → λ1, tak výsledkem je Redundance, záloha a opravy Fall 2020 Pohotovostní systémy: Pravděpodobnost bezp. činnosti •Spolehlivost pohotovostního systému se dvěma stejnými on-line a pohotovostními komponentami •Toto řešení lze pozorovat jako první dva členy v Poissonově rozdělení •Pravděpodobnost poruchy je rovna q = λt •Počet událostí typu zapnutí zálohy je µ = nq, ale protože start zálohy nezačíná před vznikem závady na primárním prvku, pak časy výskytu obou událostí (poruchy a přepnutí) představují posloupnost v čase (jeden po druhém) → µ = 1q = q Redundance, záloha a opravy Fall 2020 Pohotovostní systémy: Pravděpodobnost bezp. činnosti •Pokud se model z obr. 1 lze rozšíří o velké množství prvků a stavů, tak i pro tento případ Poissonovo rozdělení poskytuje řešení •Pro n identických pohotovostních prvků je systém funkční, pokud dojde maximálně k n-1 poruchám •Poissonovo rozdělení Redundance, záloha a opravy Fall 2020 Porovnání paralelního a pohotovostního systému •Pohotovostní systémy jsou výhodnější než systémy paralelní •Funkčnost a výhodnost závisí na spolehlivosti pohotovostního přepínače •Ve srovnání je také třeba vzít v úvahu spolehlivost vazebního členu v paralelním systému •Přepnutí do pohotovostního systému musí vykonávat tři funkce 1)Musí mít nějaký rozhodovací prvek nebo algoritmus, který je schopen detekovat nesprávnou činnost 2)Přepínač poté musí přepnout výstup z on-line prvku na pohotovostní prvek a případně přepnout vstupy 3)Přepnout napájení z on-line do pohotovostního prvku Redundance, záloha a opravy Fall 2020 Porovnání paralelního a pohotovostního systému napájení Rozhodovací člen Přepínač napájení Přepínač vstupů Vstup Výstup 1 2 1 2 Obrázek 2: Redundance, záloha a opravy Fall 2020 Pohotovostní systém, ve kterém je zobrazeno přepínání vstupu a napájení. Systém – 1 on-line Systém – 2 pohotovostní Porovnání paralelního a pohotovostního systému •Pokud přepínače nejsou bezporuchové •Za předpokladu: •Jakákoli porucha přepínače je poruchou systému •Poruchy spínače jsou nezávislé na poruše online a pohotovostního systému •Přepínače mají konstantní poruchovost λs •poté pro oba identické online a pohotovostní systémy platí: R(t) = e−λs t (e−λt + λte−λt ) •Spolehlivost běžného paralelního systém (viz obr. 3) R(t) = 1 − (1 − e−λt )2 Redundance, záloha a opravy Fall 2020 Porovnání paralelního a pohotovostního systému 0.6 0.8 1.0 Pohotovost s přepínačem λs = 0 (bezporuchový přepínač) Poruchovost λs = 0.1λ Pohotovost λs = 0.5λ 0.4 Pohotovost λs = l Parallel Redundance, záloha a opravy Fall 2020 0 0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6 1.8 2.0 Normalizovaný čas t= λt Obrázek 3: Porovnání paralelního systému a pohotovostního systému s poruchovým přepínačem 0.2 Porovnání paralelního a pohotovostního systému •Jednoduchý způsob, jak vylepšit model spolehlivosti přepínače, je předpokládat, že přepínač selže pouze při přepnutí z on-line do pohotovostního režimu, po selhání on-line prvku •Když je on-line prvek bezchybný, nemůže se porucha přepínače projevit, •V takovém případě je pravděpodobnost bezporuchové činnosti přepínače součtem pravděpodobnosti jeho správné funkce a pravděpodobnost jedné poruchy a bezchybnost přepínače je také jeho správná funkce •Spolehlivost přepínače v následující rovnici představuje pouze druhý člen R(t) = e−λt + λte−λt → R(t) = e−λt + λte−λt e−λs t •Toto je realističtější model přepínače než ten předchozí Redundance, záloha a opravy Fall 2020 Opravitelné systémy: Úvod •Na opravu a výměnu lze pohlížet jako na stejný proces •Výměna vadné součásti za náhradní je jen rychlá oprava •Proces opravy 1)Detekce, že došlo k selhání 2)Diagnostika nebo lokalizace příčiny selhání 3)Zpoždění výměny nebo opravy (včetně logistického zpoždění) 4)Test a kalibrace systému •Oprava obecně zlepšuje spolehlivost a dostupnost •V případě jediného prvku oprava neovlivní spolehlivost, ale zlepší dostupnost •V případě redundance, oprava zlepší spolehlivost i dostupnost •Spolehlivost se zlepší, pokud lze selhávající prvek opravit a obnovit před selháním zbývajícího prvku Redundance, záloha a opravy Fall 2020 Opravitelné systémy: Spolehlivost dvou prvků •Oprava vylepšuje paralelní i pohotovostní systém •Markovův model pro dvouprvkový paralelní nebo pohotovostní systém s opravou je uveden na obr.4 •V případě běžného paralelního systému •Pravděpodobnost přechodu ze stavu s0 do s1 je 2λ, protože každý prvek může selhat •V případě pohotovostního systému •Pravděpodobnost přechodu ze stavu s0 do s1 je λ, může selhat jen jeden prvek •Pokud je možno opravovat více prvků zároveň (více spolupracujících opravářů), je intenzita opravy > µ (µ je intenzita opravy pro jeden prvek) • • μ’Δt λ’Δt λΔt 1 – λ’Δt 1 – (λ + μ’)Δt 1 λ’= 2λ pro paralelní systém λ’= λ pro pohotovostní systém μ’ = μ s možností jedné opravy μ’ = kμ s možností k oprav paralelně Figure 4: Markovův model spolehlivosti pro dva identické paralelní prvky s možností k paralelních oprav Redundance, záloha a opravy Fall 2020 s0 = x1x2 Opravitelné systémy: Spolehlivost dvou prvků •Z obr. 4 vyplývá: •Za předpokladu, že oba systémy jsou zpočátku funkční: Redundance, záloha a opravy Fall 2020 Laplace transformation Opravitelné systémy: Spolehlivost dvou prvků •Pokračování předešlého výpočtu: Redundance, záloha a opravy Fall 2020 •Dalším krokem je expanze částečných zlomků (pro tento tvar rovnic je obtížné) •Nakonec je transformujte z frekvenční domény do časové domény Laplace transformation •Zjednodušení výpočtu přináší výpočet MTTF Opravitelné systémy: MTTF •Snadnější porovnání vlastností několika systémů je porovnání jejich MTTF (není třeba vyčíslovat pravděpodobnost bezporuchové činnosti): Redundance, záloha a opravy Fall 2020 •Z obr. 4 vyplývá: Opravitelné systémy: MTTF •Výsledky substituce různých hodnot intenzit poruch λ’ uvedených na obr. 4 ve vyjádření v MTTF pro jednu opravu s µ’ = µ (v daném čase lze provádět pouze jednu opravu) jsou uvedeny v Tab. 3 •Oprava silně zvyšuje MTTF Tabulka 3: Porovnání MTTF pro několik systémů Typ prvku vzorec Pro λ = 1, μ = 10 Jednoduchý prvek Dva paralelní prvky – bez opravy Dva zálohované prvky – bez opravy Dva paralelní prvky – s opravou Dva zálohované prvky – s opravou 1.0 1.5 2.0 6.5 12.0 Redundance, záloha a opravy Fall 2020 1/λ 1,5/λ 2/λ (3λ+μ)/2λ2 (2λ+μ)/λ2 Reference Martin L. Shooman, Reliability of Computer Systems and Networks: Fault Tolerance, Analysis, and Design, Wiley-Interscience, 2001. Redundance, záloha a opravy Fall 2020