No votes yet.
Please wait...

C’est un élément important, un constituant essentiel de la base de la pyramide « ordinateur » (partie matériel) : le disque dur.

Nous allons voir dans cet article comment vérifier le fonctionnement d’un disque dur.

Pourquoi prendre ces précautions ?

Pour le monde de l’entreprise, la réponse est très claire … garantir le fonctionnement, éviter les opérations de maintenance, anticiper les pannes et pertes de production.

nota : bien évidemment une infrastructure ne peut pas dépendre d’un seul disque et on utilise d’autres moyens (RAID 5, sauvegarde etc …) pour assurer l’indépendance vis à vis du matériel  …

Si un disque est défectueux c’est toute la pyramide « ordinateur » qui peut s’écrouler et avec ce que cela implique : perte de données, les délais pour changer le disque, ré-installer le système, applications et données etc …

Quand vérifier un disque dur ?

Avant utilisation / mise en production

Un disque dur se « vérifie » avant son utilisation. C’est à dire avant la mise en production et l’installation du système d’exploitation ou mise en place dans un serveur.

La symbolique est très simple … avant d’insérer d’introduire un élément dans un système, il est nécessaire de valider sa compatibilité et son bon fonctionnement ! Sous peine de devoir recommencer la procédure, avec les conséquences que cela entraine …

Au cours de son utilisation

1 – Il existe un « outil » de surveillance de disque appelé SMART (Self-Monitoring, Analysis, and Reporting Technology) ou TASAR (Technique d’Auto-surveillance, d’Analyse et de Rapport). Le problème est la fiabilité d’implémentation de la technologie dans les disques et les cartes mères … Peu de fabricants communiquent dessus … De fait, il existe des incompatibilités de communication entre disque dur et carte mère … ce qui entraine des non détections. De plus, en fonctionnement RAID, SMART devient useless sur certains points …

nota : SMART est censé prévoir les défaillances, voire les réparer quand cela est possible.

2 – Vérifier régulièrement la vitesse de transfert et autres éléments mesurables pour constater des pertes / baisse de caractéristiques.

Ça peut être tous les mois, voire une fois ou plusieurs par jour pour les applications critiques …

Quand un symptôme apparait

Si un des éléments de surveillance mis en place vous alerte, c’est le moment de lever le doute avec le logiciel du fabricant !

Comment procéder à cette vérification ?

Avant mise en production

Les logiciels constructeur permettent d’identifier certains défauts.

L’utilisation du disque dans un équipement de test permet aussi, en le sollicitant, de vérifier et valider son bon fonctionnement. Cela peut être des scripts de lecture / écriture, des transferts de données.

  1. Test de surface : recherche de mauvais bloc d’un disque,
  2. Test SMART : vérification d’indicateurs avec seuils limite,
  3. Test structure du volume,
  4. Test structure de fichiers : vérifie l’intégrité et la structure des fichiers.

nota : ces essais sont ceux réalisés par le logiciel TechTool Pro (MAC OS), un exemple.

En parallèle, en profiter pour contrôler que le disque respecte bien les caractéristiques de bande passante annoncées par le fabricant. Cela servira {d’étalon|d’éléments de comparaison} lors des prochaines vérifications.

Pendant le fonctionnement

Surveillance et test SMART régulier, surveillance température, et durée utilisation.

nota : je le rappelle SMART a des limites en RAID …

Vérifier de temps en temps, les caractéristiques (temps de réponses, taux de transfert) du disque : par ex. avec CrystalDiskInfo. C’est équivalent à un benchmark hein …

dlg-diagnostic-hdd-failLever de doute suite à un problème

Idem que pendant le fonctionnement. On peut ajouter les logiciels constructeur …

J’utilise régulièrement la solution UBCD qui intègre la majorité des logiciels constructeurs (Hitachi Drive Fitness Test, Samsung HUTIL, Seagate SeaTool).

Et sinon voici quelques logiciels tiers de diagnostics (payant ou gratuit) : HD Tune, HDDScan, DiskCheckup, GSmartControl, Bart’s Stuff Test, Spinrite.

Quelques statistiques pour finir …

La panne d’un disque dur ne prévient généralement pas … Du jour au lendemain c’est l’écran noir, ET quand on a de la chance ce sont de simples ralentissements qui nous avertissent gentiment d’une future catastrophe !

nota : il existe les défaillances prévisibles (dégradation lente de certaines pièces mécaniques) et les défaillances imprévisibles associées à un événement externe (foudre, EFT …).

Un disque dur peut durer combien de temps ?

D’après plusieurs étude, la durée de vie médiane semble se situer autour de 6 ans (entre 5 et 7 ans) i.e un disque dur sur deux (1/2) fabriqué à la même période est encore en vie après 6 ans.

Ceci dit, de part sa constitution (les éléments qui le compose et dont il dépend), un disque dur est sensible à de multiples phénomènes, et sa durée de vie peut s’en trouver affectée (panne mécanique, électronique, logique, environnement).

On sait et observe, statistiques à l’appui, que si un disque ne meurt pas dans les 3 (voire 6) premiers mois de sa vie (environ 10 à 15% de mort), les disques vont commencer à mourir à partir de 4 ans (80 % encore en vie après 4 ans) et le nombre de disques morts va augmenter ensuite (6 ans pour 50% des disques, fabriqués au même moment, encore en vie).

Bien évidemment tout cela doit être relativiser en fonction des marques, modèles, conditions de fonctionnement, taux d’utilisation etc …

Pour aller plus loin

Un sujet sur FreeNAS à propos de The Math on Hard Drive Failure.

Rapport interne chez Google sur les taux de pannes disques (données entre 2001 et 2006).

À prendre avec un peu plus de pincette (étude décriée), un extrait d’un article de Backblaze sur la fiabilité des disques en production (data center),

 

No votes yet.
Please wait...

5 Commentaires

  1. Bonjour je suis informaticien
    je viens d avoir un serveur synology de 12 buy avec un switch netgear de 24 port, mais je ne l ai jamais installer et je voudrai une assistance pour son installation.merci d avance

  2. Attention sur l’étude de BlackBlaze : il s’agit d’un contexte bien différent de celui de l’utilisation chez un particulier ou dans la PME moyenne.

    En effet, Blackblaze utilise des « pods » de stockage, dans des datacenters en atmosphère contrôlée.
    Cela a deux conséquences très importantes pour la durée de vie des disques :
    – une température constante toute l’année (moins de 0.5°C de fluctuation),
    – quasiment jamais d’arrêt/redémarrage dans toute la vie du disque.

    Dans mon Syno, à la maison, la température d’un disque passe de 26°C au plus froid de l’hiver à 36°C au plus chaud et une moyenne à 30°. Et typiquement avec 1° d’écart jour/nuit.

    Par contre, j’ai choisis de ne jamais les arrêter, en particulier en évitant les mises en veille.
    Cela évite autant de redémarrages que de stress thermiques supplémentaires.

    Cordialement,

    Richard.

    • @ Richard :

      je suis entièrement d’accord. On doit prendre ces informations comme des indicateurs / informations (surtout avec ce tiers / source), pas la réalité.
      L’environnement de prod. d’un hébergeur n’est en rien comparable à celui d’un particulier … poussière, vibrations, chocs, température, perturbations électriques, sollicitations, taux d’utilisation etc …

      Pourtant, à mes yeux, ces stat. restent proches de la réalité que nous observons.
      D’ailleurs, je les utilise pour faire des diagnostics i.e. les symptômes + chiffres stat. ne trompent pas !
      nota : nous observons entre 4 et 6 ans en général.

      Oui, l’étude de BB ne met pas évidence les problèmes de température mais dans un environnement contrôlé, d’autres facteurs sont plus importants.
      Je vais corriger le tir des que possible à ce sujet, c’est mal amené en effet …

      D’ailleurs, tout cela est presque devenu un faux pb depuis l’arrivée des SSD (mm si on doit faire attention, peu de recul) …
      Par exemple, désormais, nous mettons systématiquement des SSD dans les machines clients pour réduire les opérations de maintenance (surtout les portables).

      PS : un article intéressant à ce sujet.

      Sébastien

Comments are closed.