Prozkoumáno bylo na 100 000 pevných disků v Google serverech. Šlo o modely, které můžeme najít i v běžných počítačích, čili něšlo o databázové SCSI disky nebo disky s 10 000 – 15 000 ot/min. Všechny s rozhlaním SATA a PATA a zároveň šlo o disky, které byly porouchané natolik, že musely být vyměněny.
Aby se zjistilo, proč se každý jednotlivý disk porouchal, byla ze SMART (Self-Monitoring, Analysis and Reporting Technology) nahrána všechna data o počtu generovaných chyb během provozu (chyba čtení, zápisu, přepisu, chyba startu a tak dále) a výsledky byly dány do databáze.
Z databáze vyplývá následující:
- Mnoho disků odešlo krátce po svém nasazení do provozu (byly to tedy od výroby zmetky).
- Výborně vyrobené disky měly minimální úmrtnost – opotřebené začaly být až po pěti letech provozu.
- Bez ohledu na to, skoro 8 procent disků nepřežilo více než dva roky provozu.
- Úmrtnost disků v provozu byla mnohem větší, než jak jí udávají výrobci.
- Chyby startu disků (roztočení ploten) a problémy s motorky se prakticky
nevyskytovaly.
Dále zjistili, že pro zjištění možných problémů je nejdůležitější sledovat:
- Počet chyb čtení
- Re-alokace (když disk přemapuje špatný sektor a nahradí ho nepoškozeným záložním)
- Počet sektorů ve zkušební (probační) lhůtě (když jsou označeny jako podezřelé nebo pravděpodobně špatné)
Zajímavé je, že ačkoliv se dá přesně zjistit, co za poruchami disků stojí, co je způsobuje, nedá se dopředu předpovědět, který disk selže a kdy.
Jinými slovy, údaje ze SMART jsou sice fajn, ale vývojáři z Google nebyli schopni na základě těchto údajů stanovit nějaký model, který by jim umožnil předpovědět totální selhání konkrétního disku.
Některé disky nevykazovaly prakticky žádné chyby a porouchaly se naprosto bez varování. Bylo to plných 56 procent disků, které se takto chovaly.
Jiné disky zase generovaly chyby jako o závod, pak se ale jakoby „umoudřily“ a přestaly chyby generovat úplně. Takto vypadá graf úmrtnosti:

Služby nejlepšího
internetového vyhledávače v současnosti a všechny jeho další služby
jsou závislé na masivní serverové infrastruktuře. Tato infrastruktura
obsahuje velká disková pole o kapacitě sto a více kusů, které jsou
uložené v klimatizovaných sálech s filtrovaným vzduchem a perfektní
čistotou. Havárie diskových polí představují pro firmu obrovské ztráty,
přidělávají problémy se zálohováním a zvyšují náklady na opravy a
provoz. Přesto to není něco, co by bylo možné za současného stavu
technologií řešit.
K monitorování SMART výstupů z vašeho pevného disku vám poslouží utilita SpeedFan 4.32.
Source: ArsTechnika
Žádný komentář ↓
Zatím tu nejsou žádné komentáře... Můžete být prvni!.
Zanechte komentář