Sécuriser ses données avec un système RAID ou JBOD 2


hdd-raid-jbod-500x349 Sécuriser ses données avec un système RAID ou JBOD

Introduction

Le , on en entends souvent parlé, mais qu’est ce que c’est vraiment? Il s’agit de l’acronyme de « Redundant Array of Independent Disks » ou « Ensemble redondant de disques indépendants » en français. Ou encore en langage plus courant c’est une méthode pour regrouper plusieurs entre eux pour en améliorer les performances, aussi bien en taille qu’en sécurité des données. Pour la petite histoire, à l’orgine en 1987 lors de sa création, l’acronyme du RAID voulait dire « Redundant Arrays of Inexpensive Disks » soit « regroupement redondant de disques peu onéreux » en Français mais depuis le prix des a beaucoup … beaucoup chuté.
Le RAID permet donc de constituer un disque dur virtuel avec plusieurs disques durs physiques. Le disque dur virtuel ainsi créer s’appel une grappe, vous voyez l’idée :-).

Mais il existe plusieurs type de RAID qui ne font pas tous la même chose, n’ont pas tous la même tolérance aux pannes, ni les mêmes performances d’espace disque. Et vu que ce n’est pas assez compliqué, il y a des systèmes qui ressemble au RAID mais ne sont pas du RAID comme le JBOD utilisé par Microsoft, nous y reviendrons aussi.
Les différents types de RAID sont appelés Niveaux RAID, les plus fréquents sont les niveaux 0 à 6. Parmi eux les Niveau 0, 1 et 5 sont des standards.

Niveau 0: appelé striping
Niveau 1: appelé mirroring, shadowing ou duplexing
Niveau 2: appelé striping with parity (obsolète)
Niveau 3: appelé disk array with bit-interleaved data
Niveau 4: appelé disk array with block-interleaved data
Niveau 5: appelé disk array with block-interleaved distributed parity
Niveau 6: appelé disk array with block-interleaved distributed parity

Il est également possible de combiner plusieurs système de RAID entre eux, par exemple RAID 0+5, ce système se fera donc appelé RAID 05.

Le RAID matériel VS le RAID logiciel

Avant de voire le détails de chaque niveau de RAID il est également important d’introduire la notion de RAID matériel, RAID logiciel et RAID Pseudo-Matériel. En effet faire du RAID c’est bien, mais savoir qu’elle méthode utiliser et pourquoi c’est mieux. Avant même de se demander quel niveau de RAID on veut utiliser.

Le RAID matériel

Dans ce cas, il y a une carte RAID dédier qui est une carte physique au même titre que la carte graphique ou la carte réseau par exemple. Cette carte est appelé contrôleur RAID et est généralement pourvus d’un processeur spécifique et de mémoire pour être autonome. Ainsi son emplacement peut être aussi bien dans la tour du PC que dans la baie des disques durs. Ce montage rend le disque RAID visible par le système d’exploitation en tant qu’unité, et l’OS ne sait pas qu’est ce qui le compose, donc n’a pas besoin de savoir de quoi est constitué la grappe mais seulement des performances globale de cette dernière.

Avantages

– Elles permettent la détection de défauts et le remplacement à chaud des disques (c’est à dire sans arrêté la machine).
– Dans une configuration avec beaucoup de disques redondant la charge système est allégé.
– Les diagnostiques et maintenance du RAID sont effectué en arrière plan par le contrôleur sans utiliser de ressources système du PC.

Inconvénients

– L’incompatibilité des carte RAID, si une carte RAID tombe en panne, elle doit être remplacer par la même carte avec le même firmware installé dessus, dans le cas contraire les données sont perdus car illisible pour une autre carte RAID. Plus une carte est vieille et plus elle sera dure à remplacé en cas de panne.
– Les cartes d’entrée de gamme ont un processeur peu puissant, ne rivalisant pas avec du RAID logiciel sur un ordinateur récent qui possède un processeur puissant.
– Le prix de 200 à 1000 € pour la carte RAID
– La difficulté d’intégration à l’OS en place en fonction des logiciel fournis par les fabricant de carte RAID.
– Les carte RAID sont spécialiser pour un seul type de périphérique bloc.

Le RAID pseudo-matériel

De nombreuses carte mère ont un contrôleur RAID intégré qui gère le RAID 0 et 1 sur des disques IDE ou SATA. MAIS il s’agit d’un abus de langage, en effet il ne s’agit pas vraiment d’un RAID matériel mais plutôt d’un contrôleur de disques avec des fonctions avancées. Il s’agit donc d’un RAID logiciel avec un déplacement des routines logicielles qui gère le RAID.

Avantages

– C’est un forme de RAID logiciel qui, comme intégré à la carte mère, peut avoir accès au périphérique RAID avant l’exécution de l’OS et donc l’OS peut être installé sur un périphérique en RAID.

Inconvénients

– Les limites lié à un RAID logiciel sont également celle de ce RAID pseudo-matériel.
– Leurs fonctionnalités BIOS sont limitées et la gestions des défauts matériels n’est pas excellente.
– Pour le RAID matériel, en cas de panne il y a des risque de ne pas pouvoir changer la carte RAID par un identique, ce risque est plus grand pour ce RAID où il faut remplacer la carte mère par une identique avec le même BIOS. Ainsi dans certain cas, sans aucune panne, la mise à jour du BIOS peut posé problème. C’est d’autant plus vrai que les constructeurs de contrôleur RAID ont quand même intérêt à ce que leur matériel ne pose pas de problème. Dans le cas d’une carte mère, le RAID est une option marketing et pas le produit principale qui est vendu.

Le RAID logiciel

Dans ce type de RAID, le contrôle RAID est intégralement assuré par une couche logicielle du système d’exploitation. Cette couche logiciel agit entre la couche des pilotes du matériel et la couche du système de fichiers de l’OS. C’est pour ce RAID qu’il y a des systèmes qui ressemble au RAID mais ne sont pas du RAID comme le dérivé de JBOD par Microsoft qu’il nomme Storage Spaces depuis Windows 8. Actuellement la plupart des OS grand public gère le RAID (le vrai) via logiciel. Que ce soit Windows depuis XP, Mac OS X et Linux. Le système offrant le plus de choix et de possibilités en RAID logiciel est linux.

Avantages

– Le prix, en effet il n’y a besoin d’aucun matériel supplémentaire et de nombreuses solutions gratuites existent.
– On a une grande souplesse d’administration avec cette méthode.
– La compatibilité dans le temps. Comme ce n’est pas matériel dépendant, tout OS sur le quel est installé la version du logiciel peut lire le système RAID. C’est plus simple de réinstallé le même logiciel sur un nouveau PC plutôt que de rechercher et acheter une carte RAID vieille de 10ans.

Inconvénients

– La méthode réside sur la couche pilote des périphériques qui composent le volume RAID. Cette couche peut être imparfaite et manquer de certaines fonctionnalités importantes comme la détection des défauts matériels, l’impossibilité du changement de disques à chaud.
– La gestion du RAID utilise les ressources sur système, un peu de processeur et surtout les bus systèmes. Cette limitation se fait principalement ressentir lorsque le fichier est transféré plusieurs fois pour les système RAID avec redondance.
– L’utilisation du RAID sur le disque système n’est pas toujours possible.

Les niveaux de RAID

Les niveaux de RAID Standards

Le RAID 0, Niveau 0: appelé striping

Le principe du RAID 0 est celui de volume agrégé par bandes, c’est à dire que chaque disques travaille en parallèle et ainsi permet d’augmenter la vitesse de travail sur les données. Cependant, il faut que les disque ai la même taille physiques, car les « bandes » qui n’ont pas d’équivalent sur les autres disques ne seront pas utiliser par le système. Le principal défaut de cette méthode est que la perte d’un seul disque entraîne la perte de toutes les données de chaque disque. Donc on a un gain important de rapidité mais aucune sécurité des données. Les données sont réparties en bandes d’une taille fixe. Concrètement, si je place deux disques de 2To en RAID 0 j’aurai un disque RAID de 4 To qui se comporte de la même manière qu’un disque physique de 4To en cas de panne, l’ensemble des 4To est perdu, mais en cours d’utilisation la vitesse est multipliée par 2 grâce à la parallélisassions.

325px-RAID_0.svg-195x300 Sécuriser ses données avec un système RAID ou JBOD

Le RAID 1, Niveau 1: appelé mirroring, shadowing ou duplexing

Le RAID 1 est quand à lui le parfait inverse du RAID 0, la sécurité y est maximal, mais la rapidité faiblie. En effet la capacité de la grappe est celle du disque le plus petit (encore une fois il est conseillé d’utilisé des disques de même taille). Et les données sont copiées sur chaque disques. C’est à dire qu’avec 4 disques en RAID 1, j’aurai la capacité de stockage d’un seul disques, mais ce disque sera dupliqué en 4 exemplaires identiques. Dans ce cas, à moins que la grappe tombe en panne en entière d’un coup à cause d’une surtension ou autre, en cas de défaillance de disques il n’y a pas de perte de données.

325px-RAID_1.svg-195x300 Sécuriser ses données avec un système RAID ou JBOD

Le RAID 5, Niveau 5: appelé disk array with block-interleaved distributed parity

On peut voire le RAID 5 comme une fusion du RAID 0 et du RAID 1 pour allier performance et sécurité. Cependant, ce RAID n’est possible que à partir de 3 disques durs (identique de préférence). Il s’agit comme du RAID 0 d’un système par bandes, chaque bande identique sur chaque disques seront lié entre elles. Sauf que là les bandes qui contiennent des donnée sont au nombre de N-1 disques avec la dernière bande dite de parité. Pour simplifier cette notion au maximum, vous savez que la plus petit unité de données est le bit, le bit ne peut avoir que deux valeurs, 0 ou 1. Dans un système avec 4 disques identiques. le premier bloc des 3 premiers disques va accueillir des données qui se suivent (comme du RAID 0 c’est par bande pour paralléliser). Sur le dernier bloc, il va y avoir le résultat de la somme des 3 premières bandes. Admettons de manière totalement aléatoire, les bandes deux 3 premiers disques sont 1,1,0 . A ce même emplacement sur la 4eme disques il y aura 2 (1+1+0). Ainsi si le disque 1 tombe en panne, le système saura que la valeur qui était sur le premier disque, première bande est égale à x+1+0 = 2. Et donc saura qu’il y avait un 1 sur le disque en panne. Il peut ainsi en cas de panne d’un disque, le régénérer sur un nouveau disque à partir des 3 autres. Ainsi les données sont paralléliser en N-1 disque, et le système est tolérant au panne de 1 disque. La capacité de stockage sera donc de N-1 disque. Si j’ai 4 disques de 2To chacun, j’aurai 6To de stockage RAID 5 + 2To perdu qui servent exclusivement à la parité. C’est deux To sont répartie sur les 4 disques.

675px-RAID_5.svg-300x222 Sécuriser ses données avec un système RAID ou JBOD

Les autres niveaux de RAID

Le RAID 2, Niveau 2: appelé striping with parity (obsolète)

Le RAID 2 combine du RAID 0 à l’écriture d’un code de contrôle d’erreur (code ECC) qui aujourd’hui est directement intégré dans les contrôleurs de disques durs. Le niveau de sécurité est bon mais les performances sont mauvaises, d’où sont abandon.

Le RAID 3, Niveau 3: appelé disk array with bit-interleaved data

Le RAID 3, le système ressemble au RAID 5, sauf qu’au lieu de travailler par bloc il travaille par octets. Et ici la parité (vous vous souvenez de l’exemple du RAID 5, les 2To de parité répartit sur les 4 disques ? ) est stocké que sur un seul disque.

675px-RAID_3.svg-300x222 Sécuriser ses données avec un système RAID ou JBOD

Le RAID 4, Niveau 4: appelé disk array with block-interleaved data

Le RAID 4, est similaire au RAID 3 et au RAID 5 par conséquent, il est comme le RAID 3 avec un disque de parité dédié et non répartie. Mais fonctionne comme le RAID 5 par bloc. La conséquence est qu’entre le RAID 3 et 4, le RAID 4 a moins de synchronisme entre les disque car travaille avec des plus grande unités de donnée, il est donc plus performant. Le schéma du RAID 4 est similaire à ceui du RAID 3 ce dessus.

Le RAID 6, Niveau 6: appelé disk array with block-interleaved distributed parity

Le RAID 6 est similaire au RAID 5, mais contient deux fois la parité répartit sur les disques. C’est à dire qu’au lieu d’une bande de parité sur le RAID 5, ici il y en a deux. Donc la capacité de stockage est de N-2 disques, contre N-1 disques pour le RAID 5. En contre partit ici la tolérance au panne est de deux disques défectueux. Le RAID 6 est donc utilisé lorsqu’il y a plus de disques, tandis que le RAID 5 convient pour des grappes plus petites.

800px-RAID_6.svg-300x177 Sécuriser ses données avec un système RAID ou JBOD

Les niveaux de RAID combinés

Avant d’en finir avec les Niveaux de RAID, nous allons aussi voir qu’il est possible de combiner plusieurs RAID ensemble. Dans l’exemple ici nous allons créer un RAID 10, c’est à dire un RAID 1 + un RAID 0. C’est à dire que les disques sont en RAID 1, mais qu’il y a plusieurs grappes indépendante et ce sont ces grappes qui sont en RAID 0.
Maintenant que vous connaissez la définition de chaque niveau de RAID, un RAID1+0 correspond à quoi? Voyons le cas où nous avons 4 Disques de 2To. Nous allons premièrement faire deux grappes de deux disques. Chaque grappe est donc en RAID 1, c’est à dire que les disques sont identiques deux à deux. Ensuite ces deux grappes sont elle même lié entre elles en RAID 0, c’est à dire lié par bande. A quoi ça sert me direz-vous? Avec cette construction, lorsque j’ajoute des données, c’est données se répartissent comme en RAID 0, par bande, et ainsi nous gagnons en efficacité. Mais le RAID 0 n’a aucune sécurité. C’est là que le RAID 1 lié à chaque « disques » de la grappe RAID 0 entre en jeux, ça permet de dupliquer chaque bande de RAID 0 au sein d’un RAID dans la grappe. Ainsi chaque donnés est présente en double. La tolérance au panne est de 1 disque par grappe, soit la moitié des disques dans le pire des cas.
Tous les RAID peuvent être combinés entre eux sur le même principe. La Grappe se comportant comme un unique disque physique, on peut mettre plusieurs grappes en RAID.

800px-RAID_10.svg-300x300 Sécuriser ses données avec un système RAID ou JBOD

Il n’y a pas que le RAID, il y a aussi le JBOD.

Le JBOD est une méthode d’organisation des données développé par Microsoft. Le principe est de pouvoir assembler des disques ensemble en grappe, comme le ferai du RAID. Dans sa version initial, ce n’est pas du RAID car là il n’est pas question d’écrire en simultané sur plusieurs disques, mais d’écrire à la suite les données, ça revient ainsi à une simple concaténation de disques. En effet on pourrai voire cette méthode comme l’opposé de partitionner un disque dur. Dans cette implémentation il n’est donc pas nécessaire d’avoir des disques de la même taille, et si un disque tombe en panne, les autres reste lisibles. Il n’y a pas de duplication ni parité. Donc on perd les données sur le disques en panne.

500px-JBOD.svg-300x300 Sécuriser ses données avec un système RAID ou JBOD
Mais alors pourquoi en parlé me dirai vous ? Parce que depuis windows 8 (pour les OS grand publique) il y a eu une nouvelle gestion des données proposé par Microsoft et baser sur JBOD. Il s’agit du Storage Spaces.
Dans ce cas, le Storage Spaces ne permet pas d’utiliser les disques individuellement une fois qu’il sont assemblé. On peut également créer un espace bien plus grand que la capacité physique qu’on possède grâce à son allocation des données dynamique, le système indique simplement à l’utilisateur d’ajouter un disque quand l’espace devant trop limité.
La vrai amélioration est qu’il est désormais possible d’avoir l’équivalent d’une RAID 1 et un système proche du RAID 5. Donc si vous suivez toujours, une duplication des données en miroir et une redondance par parité des données. A noté que pour la parité, le ratio n’est pas le même que pour le RAID 5, en effet ici la taille du stockage fait environ 2/3 de la place total physique. Ce qui veut dire que ça évolue petit à petit, et que lorsqu’on a 6 disques, ça devient un équivalent RAID 6. A noté que le système indique lorsqu’il y a un problème avec un des disques pour pouvoirs les changer en cas de pannes.

 

Données perdues malgré le RAID?

Les soucis peuvent toujours arriver, et les pertes de données pour une raison quelconque en font partie Même si vous êtes en RAID. La récupération de données, vous en avez de différents types: logiciels ou « physique ».

Les logiciels de récupération, il faut le dire, sont assez peu efficace. Contrairement aux labos qui récupèrent « physiquement ». Je parle de « physique » dans le sens ou il leur faut le support de stockage pour qu’ils puissent le démonter et récupérer les données. Et pour cela, il faut du matériel spécialisé, mais également des salles blanches, qui sont zones de travail où la qualité de l’air, la température et le taux d’humidité sont régulés afin de protéger les médias de toute contamination et endommagement.

B280927_strFNPicture1-500x158 Sécuriser ses données avec un système RAID ou JBOD

Un des leaders en récupération de données, c’est Kroll Ontrack, qui est présent sur 35 sites au niveau mondial

Ils font de la récupération de données sur tous supports et systèmes d’exploitation : disque dur, serveur, RAID… 24h/24 et 7j/7 : 25 ans d’expérience, 50.000 récupérations de données par an dans le monde, de nouveaux outils uniques développés continuellement,…

Conclusion

Pour conclure, le RAID a pour avantage de réduire les risque de perte de données en cas de pannes, il permet d’améliorer les performances en parallélisant les accès disques, il n’est pas forcément chère à mettre en œuvre.

Cependant il faut garder à l’esprit que le RAID n’est pas une solution miracle et ne vous protégera pas contre un incendie, une surtension dans la machine, une bombe nucléaire ou autre raisons pour les quels tous vos disques peuvent tombé en panne en simultané. (Ni même de l’erreur humaine, si vous supprimé un fichier, il est supprimé pour de bon comme sur un disque normal, et là la restauration est plus compliqué même! ) Pour pallier à ça, il y a un RAID réparti sur le réseau qui est possible, mais cette solution est réservée aux professionnels.

Pour votre culture général, sachez juste que ça consiste à faire du RAID entre différents serveurs sur le réseau, serveur qui ne sont donc pas forcément dans le même bâtiment, ni même sur le même continent dans les cas les plus extrêmes. Le RAID est plus simple d’utilisation sous Linux qui le gère parfaitement en ligne de commande, quelque logiciels sont également disponibles. Windows peut également gérer du RAID, mais là depuis Windows 8, la solution la plus simple est le Storage Spaces qui est en natif dans le système et qui permet les principale fonction courante du RAID. Mais là encore, comme pour le RAID ça ne protège pas contre les vrai problème telle que les incendies par exemple.
Ainsi à notre niveau, pour les données vraiment sensibles pour lesquels aucune suppression n’est permise, le mieux et d’avoir un espace de stockage en ligne en complément, c’est payant via abonnement mais pas hors de prix. Seulement attention où vous les stockez. Préférez un stockage sur lequel vous avez la main et ainsi en pouvez crypter vous-même vos données. Où un espace de stockage chez un FAI associatif libre. Pour ce dernier point nous y reviendront  éventuellement dans un futur article pour plus de détails.


Laissez un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

2 commentaires sur “Sécuriser ses données avec un système RAID ou JBOD

  • Alex A.

    Bonjour,

    Merci beaucoup pour cet article très complet !

    Un de mes disques vient de me lâcher… Il ne contenait rien de très important juste plus d’un To de « séries de vacances en famille » donc rien de bien grave.
    Plutôt que de racheter un dd et avoir probablement le même problème d’ici quelques années, je souhaiterai passer à un peu plus de sécurité donc le RAID 5 me semble la solution.

    Comme j’aime bidouiller, je pensais pouvoir me faire un RAID avec une Singleboard (rpi, cubieboard, bananapi, …) mais ça n’a pas l’air aussi simple et je suis un peu perdu entre les procs qui gèrent ou pas le multiplier sata, les contrôleurs, etc …

    Aurais-tu une solution/idée de matos/montage qui serait le moins onéreuse possible ? Disons pour 3 à 6 disques max de 1 ou 2 To en RAID 5.

    Merci d’avance !
    Alex A.

    View Comment
    • Bryce Auteur de l’article

      Bonjour Alex,

      Pour aller au plus simple je peux te proposer plusieurs cas de figures!
      L’utilité principale du RAID avec une carte type Rpi est pour faire un NAS (du RAID mais avec un système qui a une sortie réseau et accessible sur le réseau par exemple).
      Pour juste une sauvegarde en RAID tu n’as pas besoin d’allé aussi loin. Un HUB USB et des disques durs externes peuvent suffire. Si tu utilises un OS win8 ou supérieur tu peux créer depuis le panneau de configuration de Windows un storage space avec type « parité de données ». Dans ce cas là c’est très proche du RAID 5 au niveau bénéfique et « perte d’espace » pour la redondance. Personnellement j’utilise ce système avec 4 disques de 4 To dans une petite armoire métallique que j’ai fabriqué. Et ça marche très bien, je l’utilise pour sauvegarder tout ce qui est média (photos, vidéo, film, séries, ect).
      Si un disque tombe en panne, Windows te l’indique, tu le remplaces et le système se reconstruit sur le nouveau disque.
      Si tu as Windows 7 ou inférieur c’est un peu plus compliqué mais ça se fait aussi, avec des logiciels adaptés.
      Et sinon si tu es sous linux, c’est facile et tu trouveras beaucoup de tuto sur ubuntu-fr.org par exemple.
      Le raid est disponible en natif sous linux depuis plus longtemps que sous Windows. J’ai aussi déjà eu l’occasion de le faire en ligne de commande, tu créer ton système RAID puis après tu ajoutes, supprime remplace les disques avec des simples lignes de commande. Si un disque tombe en panne, tu le remplace et tu lances un rebuild et le tour est joué. (depuis ça existe peu être aussi avec une interface graphique, à vérifier!)
      Donc quelque soit ton système, si tu ne veux pas un NAS, un simple HUB USB, comme les HUB USB tester sur ce site ou un HUB Amazon Basique par exemple marche bien.
      Personnellement j’ai un HUB 10 ports car j’ai fait une armoire à 8 emplacements pour pouvoir étendre la partition le jour où j’en ai besoin et deux USB pour alimenter deux ventilateurs que j’ai mis par précaution (et oui 4-8 disques empilé ça chauffe ^^). Autre conseil, vu la quantité de prises USB qui seront utilisées en parallèle, prend un HUB USB 3.0 alimenté, ça permettra d’avoir un transfert stable, plus rapide et plus fiable.
      J’espère que cette réponse pourra t’aider et n’hésite pas si quelque chose n’est pas claire!

      Bryce

      View Comment