[MontelLUG] Sugli errori subdoli al file system
Samuele
samuele.zanin a tiscali.it
Ven 8 Giu 2012 18:21:27 CEST
A quanto mi risulta, zfs e btrfs implementano dei checksum su ogni
blocco scritto per essere sicuri che al momento della lettura venga
letto quanto effettivamente scritto e non schifezze. Immaginavo (e mi
era anche stato insegnato) che in caso di errore di lettura di un
blocco, il disco e poi il sistema operativo, segnalassero la cosa.
Quindi, quando sentivo di questa funzionalità di zfs/btrfs mi sembrava
forse un po' troppo eccessiva per un uso normale ed adatta solo in
sistemi misson-critical. Fino a questa settimana. Appunto.
Febbraio 2007. Installazione di una server, due dischi SAS in mirror.
Estate 2011. La macchina lavora tranquillamente, tranne che per un
programmino non essenziale che mentre lo si sta usando improvvisamente
crasha. Nessuna traccia di errori nei vari log. La macchina ha quasi 5
anni, tra un po' sarà ora di cambiarla, tiriamo avanti.
Giugno 2012. Server piantato. Riavvia, non parte ecc. solita trafila.
Strani ed oscuri messaggi dal controller (unexpected sense). Rebuild
dell'array completato con successo, durante la notte marca finalmente
come difettoso uno dei due dischi e lo scalcia dall'array. Il programma
che andava in crash ora funziona come una volta.
La causa di tutto ciò è ovvia. Il disco invece che ritornare il
contenuto del file corretto ritornava c4cc4 ed una volta eseguito
giustamente crashava (si, è già stato fatto un memtest con esito ok).
Ora, la fortuna ha voluto che i danni sembra siano risultati limitati a
quel programma.
I dischi, per me, son liberi di morire, ma avvisate almeno quando
succede. Per MESI il disco ha continuato a leggere dati corrotti invece
che buoni. Se invece del programma ci fosse stato un qualche file
archiviato li e consultato di rado, non ci sarebbe stato backup che
tenesse, su tutte le copie avrei trovato un file corrotto.
Dove il controller hw lo permette, oppure ho il swraid con mdadm ho
sempre attivato lo scrub dei dischi (che IN TEORIA dovrebbe pararmi da
questi casini). Ma nel pc di casa, come posso organizzarmi? Adottare
btrfs mi pare ancora prestino.
Samuele e certe strane storie da sala macchine sul file system di Xenix
che riaffiorano alla memoria...
More information about the montellug
mailing list