[MontelLUG] Sugli errori subdoli al file system

Samuele samuele.zanin a tiscali.it
Ven 8 Giu 2012 18:21:27 CEST


  A quanto mi risulta, zfs e btrfs implementano dei checksum su ogni 
blocco scritto per essere sicuri che al momento della lettura venga 
letto quanto effettivamente scritto e non schifezze. Immaginavo (e mi 
era anche stato insegnato) che in caso di errore di lettura di un 
blocco, il disco e poi il sistema operativo, segnalassero la cosa. 
Quindi, quando sentivo di questa funzionalità di zfs/btrfs mi sembrava 
forse un po' troppo eccessiva per un uso normale ed adatta solo in 
sistemi misson-critical. Fino a questa settimana. Appunto.

Febbraio 2007. Installazione di una server, due dischi SAS in mirror.
Estate 2011. La macchina lavora tranquillamente, tranne che per un 
programmino non essenziale che mentre lo si sta usando improvvisamente 
crasha. Nessuna traccia di errori nei vari log. La macchina ha quasi 5 
anni, tra un po' sarà ora di cambiarla, tiriamo avanti.
Giugno 2012. Server piantato. Riavvia, non parte ecc. solita trafila. 
Strani ed oscuri messaggi dal controller (unexpected sense). Rebuild 
dell'array completato con successo, durante la notte marca finalmente 
come difettoso uno dei due dischi e lo scalcia dall'array. Il programma 
che andava in crash ora funziona come una volta.

La causa di tutto ciò è ovvia. Il disco invece che ritornare il 
contenuto del file corretto ritornava c4cc4 ed una volta eseguito 
giustamente crashava (si, è già stato fatto un memtest con esito ok). 
Ora, la fortuna ha voluto che i danni sembra siano risultati limitati a 
quel programma.
I dischi, per me, son liberi di morire, ma avvisate almeno quando 
succede. Per MESI il disco ha continuato a leggere dati corrotti invece 
che buoni. Se invece del programma ci fosse stato un qualche file 
archiviato li e consultato di rado, non ci sarebbe stato backup che 
tenesse, su tutte le copie avrei trovato un file corrotto.

Dove il controller hw lo permette, oppure ho il swraid con mdadm ho 
sempre attivato lo scrub dei dischi (che IN TEORIA dovrebbe pararmi da 
questi casini). Ma nel pc di casa, come posso organizzarmi? Adottare 
btrfs mi pare ancora prestino.

Samuele e certe strane storie da sala macchine sul file system di Xenix 
che riaffiorano alla memoria...






More information about the montellug mailing list