Skip to content

Tempo medio tra i guasti -- SSD

Finalmente dopo tante battaglie abbiamo trovato la soluzione a questo conflitto che hanno avuto alcuni dei nostri lettori del nostro sito. Se vuoi contribuire con qualcos'altro puoi condividere le tue conoscenze.

Soluzione:

Soluzione 1:

I produttori di unità disco specificano l'affidabilità dei loro prodotti in termini di due metriche correlate: il tasso di guasto annualizzato (AFR), che è la percentuale di unità disco in una popolazione che si guasta in un test scalato a una stima annuale; e il tempo medio di guasto (MTTF).

L'AFR di un nuovo prodotto è tipicamente stimato sulla base di test accelerati di vita e di stress o sulla base di dati sul campo di prodotti precedenti. L'MTTF è stimato come il numero di ore di accensione all'anno diviso per l'AFR. Un'ipotesi comune per le unità nei server è che siano accese per il 100% del tempo.

http://www.cs.cmu.edu/~bianca/fast/

Un MTTF di 1,5 milioni di ore sembra piuttosto plausibile.

Si tratterebbe di un test con 1000 unità in funzione per 6 mesi e 3 unità che si guastano.
L'AFR sarebbe (2* 6 mesi * 3)/(1000 unità)=0,6% annuo e l'MTTF = 1anno/0,6%=1.460.967 ore o 167 anni.

Un modo diverso di considerare questo numero è che se si dispone di 167 unità e le si lascia in funzione per un anno, il produttore dichiara che in media si verificherà il guasto di un'unità.

Ma credo che questo sia semplicemente il tasso costante di guasti meccanici/elettronici "casuali".

Supponendo che i tassi di guasto seguano la curva della vasca da bagno, come indicato nei commenti,
il team di marketing del costruttore può massaggiare un po' i numeri dell'affidabilità, ad esempio non includendo i DOA (dead on arrival, unità che hanno superato il controllo qualità ma che si guastano quando l'utente finale le installa) e allungando la definizione di DOA per escludere anche quelli che rientrano nel picco di guasti precoci. E poiché i test non vengono eseguiti per un periodo sufficientemente lungo, non si vedranno nemmeno gli effetti dell'età.

Penso che il periodo di garanzia sia un'indicazione migliore per quanto tempo un produttore si aspetta che un SSD duri davvero!
Sicuramente non sarà misurato in decenni o secoli...


Associata all'MTBF è l'affidabilità associata al numero finito di cicli di scrittura che le celle NAND possono supportare. Una metrica comune è la capacità di scrittura totale, solitamente in TB. Oltre ad altri requisiti di prestazioni, questo è un grosso limite.

Per consentire un confronto più conveniente tra marche diverse e unità di dimensioni diverse, la resistenza alla scrittura viene spesso convertita in capacità di scrittura giornaliera come frazione della capacità del disco.

Si presume che un'unità sia destinata a vivere fino a quando è in garanzia:
un'unità SSD da 100 GB può avere una garanzia di 3 anni e una capacità di scrittura di 50 TB.
capacità di scrittura di 50 TB:

        50 TB
---------------------  = 0.46 drive per day write capacity.
3 * 365 days * 100 GB

Più alto è questo numero, più il disco è adatto per gli IO intensivi di scrittura.
Al momento (fine 2014) le unità SSD della linea server di valore hanno un valore di 0,3-0,8 unità/giorno, quelle di fascia media aumentano costantemente da 1 a 5 e quelle di fascia alta sembrano salire alle stelle con livelli di resistenza alla scrittura fino a 25 * la capacità dell'unità al giorno per 3-5 anni.

Alcuni test nel mondo reale dimostrano che a volte le dichiarazioni del fornitore possono essere superate in modo massiccio, ma guidare le apparecchiature oltre i limiti del fornitore non è sempre una considerazione aziendale... Invece acquistare unità con specifiche corrette per i vostri scopi.

Soluzione 2:

Purtroppo l'MTBF non è quello che la maggior parte delle persone pensa...

  • E non è quanto durerà una singola unità.

    I produttori si aspettano che le loro unità durino quanto la garanzia, dopodiché non è un loro problema. Le unità disco elettromagnetiche più vecchie si rompono dopo circa 10 anni. I circuiti integrati durano molto a lungo, ma altri componenti (in particolare i condensatori) si consumano dopo un numero di cicli piuttosto prevedibile.

  • E è quante di queste unità sono necessarie per aspettarsi che 1 unità si guasti ogni ora.

    Come altri hanno sottolineato, i produttori eseguono vari test per un periodo di tempo ragionevole e determinano un tasso di guasto. C'è una discreta quantità di variazioni in questo tipo di test e il marketing spesso ha un "input" su quale dovrebbe essere il numero finale. In ogni caso, essi fanno una stima di quanti dischi sarebbero necessari per ottenere una media di un guasto all'ora.

    Per le situazioni con un numero inferiore di unità è possibile dedurre una probabilità statistica di guasto in base all'MTBF, ma si tenga presente che i guasti nei prodotti ben progettati dovrebbero seguire una curva a "vasca da bagno", ovvero tassi di guasto più elevati quando i dispositivi vengono messi in servizio inizialmente e dopo la scadenza del periodo di garanzia, con tassi di guasto più bassi nel mezzo.


Soluzione 3:

I dati sono frutto di una valutazione statistica basata su un campione di dimensioni ridotte e su un breve periodo di tempo. Non esiste un metodo o un processo universalmente condiviso, quindi si tratta solo di uno sciocco "marketing".

Questo articolo può spiegarlo un po' meglio. E Wikipedia contiene alcune formule che potrebbero essere ciò che state cercando?

In sostanza, per quasi tutti i prodotti (comprese le macchine domestiche generiche come la lavastoviglie) vengono fatti funzionare diversi prodotti per un periodo di tempo pari a X. Il numero di guasti che si verificano durante questo periodo viene utilizzato per calcolare l'MTFB.

Naturalmente non è possibile far funzionare i prodotti per l'intero ciclo di vita, ad esempio gli SSD, che durano a lungo. Sono per lo più limitati dalla quantità di scritture piuttosto che dai guasti meccanici (a cui serve l'MTFB).


Soluzione 4:

La cattiva notizia dell'MTBF è che i metodi di valutazione comuni suppongono un carico di scrittura uniformemente distribuito tra tutte le celle NAND. Ma le celle sono raggruppate in cluster e quando una singola cella si guasta, l'intero cluster viene contrassegnato come morto e sostituito con uno nuovo dalla riserva. Di solito la riserva è pari a circa il 20% del volume dell'SSD. Quando la riserva è esaurita, l'intera SSD viene contrassegnata come morta.

L'SSD IRL contiene dati persistenti e volatili. Immaginate di avere il 90% dell'SSD pieno di dati statici e il 10% restante è sottoposto a un pesante carico di scrittura. Il controller SSD distribuisce il carico tra i cluster liberi disponibili. Quel 10% esaurisce la propria durata di vita 10 volte più velocemente di quanto stimato. Saranno sostituiti dalla riserva ancora e ancora fino alla fine.

Nel caso davvero grave in cui la quantità di dati persistenti/volatili sia 30:1 o superiore, ad esempio un mucchio di foto e un database relativamente piccolo per un sito web popolare, l'SSD morirà in un anno.

Uno dei miei clienti è rimasto molto colpito dalle caratteristiche dell'SSD e ha insistito per dotare il suo server DBMS di un paio di unità. Nei 12 mesi successivi li abbiamo sostituiti entrambi due volte.

Ma secondo il materiale di marketing la durata di vita degli SSD è di 170 anni. Certo.

Apprezziamo che tu voglia riaffermare la nostra funzione eseguendo un commento o lasciando un punteggio, ti ringraziamo.



Utilizzate il nostro motore di ricerca

Ricerca
Generic filters

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.