Archives du mot-clé SMART

Je ne peux pas avoir perdu de données, j’utilise du RAID matériel !

Carte RAID matérielle

Carte RAID matérielle

Dernièrement, après avoir eu la mission d’analyser un serveur qui ne démarrait plus, j’ai dû annoncer à un client une perte de données. Le client était totalement abasourdi et furieux, car on lui avait vendu le RAID matériel comme étant « la solution » pour ne jamais perdre de données.

Beaucoup de commerciaux vont vanter les bénéfices du RAID matériel avec comme argument une plus grande fiabilité que le RAID logiciel, pour pouvoir placer une carte RAID dans un serveur ou un serveur avec du RAID matériel. Cet argument est possiblement correct. Si le client n’est pas totalement convaincu, le commercial va asséner son argument massue : « Avec du RAID matériel, tout est géré par la carte RAID, c’est beaucoup plus facile et simple parce que c’est automatique ». Et cet argument massue va convaincre le client, et l’induire en erreur.

Quand une carte RAID va détecter des soucis sur un disque (valeurs SMART limite, erreurs de lecture/écriture, …), celle-ci va faire son travail automatiquement : éjecter le disque défectueux du RAID, et marquer le RAID comme dégradé. L’effet pervers du RAID matériel est qu’il est effectivement automatisé, et surtout très silencieux : lorsque le RAID passe en mode dégradé, dans de très nombreux cas, cela s’effectue de manière transparente pour le serveur, qui au mieux constatera quelques lenteurs, et puis plus rien du tout une fois le disque éjecté du RAID. Aucune information ne sera renvoyé à l’administrateur du serveur. A partir de ce moment-là, pour peu que le RAID soit du RAID1, la prochaine défaillance du seul disque restant fonctionnel sera fatale aux données.

La prochaine défaillance sera la seule qui se fera remarquer : des lenteurs voire des erreurs de lecture / écriture récurrente vont apparaitre. Et malheureusement, à ce stade-là, il est fort probable d’avoir déjà perdu des données, car le dernier disque en fonction commence à ne plus fonctionner correctement.

Pour éviter d’arriver à une perte de données, il est indispensable de mettre ne place un monitoring du RAID matériel : le constructeur de la carte fournit dans la majorité des cas un utilitaire qui va au moins permettre de consulter l’état du RAID. Dans de rare cas, il est possible de se faire envoyer un email lorsqu’un événement nécessitant une intervention humaine se présente.

Il existe un site web qui regroupe des informations sur comment surveiller l’était d’un RAID avec les principales carte RAID matérielle du marché :
http://hwraid.le-vert.net/

Que le RAID soit matériel ou logiciel, mettre en place une surveillance du RAID va permettre de s’assurer une continuité de service (ou tout du moins, des coupures les plus courtes possibles), et surtout d’éviter la perte de données !