Le numérique n’est pas immatériel

25 mars 2023. Publié par Benoît Labourdette.

11 min

Le numérique est bien plus matériel qu’on le croit. Il me semble important d’en prendre la mesure de façon concrète, c’est ce qui peut permettre de construire de bonnes stratégies d’organisation de ses données numériques : mieux les gérer, ne pas les perdre dans le futur et en rester propriétaire. Les enjeux sont économiques, culturels, humains, démocratiques, écologiques, etc.

Avec mes nombreux interlocuteurs professionnels, je vois que des stratégies de “data” pensées collectivement sont très rares, alors qu’elles sont pourtant à mon sens essentielles. L’objet de cet article est de partager des ressources utiles pour ouvrir des espaces de pensée constructifs sur ces sujets.

La magie du numérique

Le numérique nous paraît immatériel, du fait du réseau Internet et des connexions sans fil présentes presque partout qui nous permettent d’accéder à nos données (réseaux sociaux, documents, musique, vidéo, photos, carnets d’adresses, agendas, etc.) où que l’on soit, sans besoin apparent d’un support concret.

Malgré tout, lorsque la connexion est mauvaise, nous percevons qu’il s’agit d’un lien à distance, que nos données sont dans un ailleurs auquel il faut se relier. Mais, même dans ces situations, comme le smartphone a aussi une mémoire interne et qu’un certain nombre de données sont dupliquées dans l’appareil (mises « en cache » comme on dit dans le jargon informatique), puis synchronisées dans le « cloud » à la prochaine connexion (c’est à dire recopiées sur les serveurs informatiques distants de nos fournisseurs de services, Google, Apple ou Microsoft par exemple), nous vivons dans une forme de connexion presque permanente, qui se joue des contraintes du réel.

Nous évoluons donc, grâce à ces formidables outils, au sein d’une sorte de « monde magique des données », qui dépasse les limites de l’espace et du temps. Je n’ai rien contre cette fluidité d’usage, qui est extrêmement pratique, mais elle risque de nous faire perdre pied pour prendre les bonnes décisions concernant la sécurité et la pérennité de nos données, personnelles mais surtout professionnelles.

Le retour du réel

La perte de données est bien plus courante qu’on le croit. L’exemple de l’incendie d’un data center de l’hébergeur web français OVH à Strasbourg en mars 2021, qui a occasionné la perte irrémédiable d’une immense quantité de données (culturelles, administratives, personnelles, médias, etc.) concernant plus de 400 000 sites Internet, a le mérite de nous ramener à la réalité. Et ce d’autant plus que, juridiquement, ce n’est pas OVH qui a été rendu responsable de la perte des données, mais les propriétaires de ces données, qui n’avaient pas mis en place de stratégies de sauvegardes ; cela relève de leur responsabilité, et non pas de celle d’OVH.

Ainsi, les clients d’OVH qui avaient pensé une stratégie de sauvegarde ont pu quasi immédiatement recouvrer leurs données et surmonter ce sinistre sans dommages ou presque. Mais les autres, la majorité, hébergés sur les mêmes serveurs, ont perdu leurs données à tout jamais.

Comment faire pour se prémunir ? Je vous propose de commencer par définir ce que sont concrètement les données numériques que nous manipulons au quotidien (nos textes, images, sons, posts sur les réseaux sociaux, etc.), afin de démystifier leur abstraction. Nous verrons leur nature fonctionnelle dans un premier temps, puis leur matérialité physique dans un second temps. Cela permettra de comprendre comment les machines traitent et manipulent les données numériques. Enfin, des pistes de stratégies de gestion et de préservation en découleront presque d’elles-mêmes par effet de bon sens.

Les différentes natures des données numériques

Les données numériques sont de plusieurs natures (pour être plus précis, elles ont plusieurs types d’usages) :

Textes : littéraires, informatifs, etc. Ils sont constitués de caractères alphanumériques (majuscules, minuscules, caractères accentués, caractères spéciaux et chiffres), qui sont codifiés sous forme de séquences de 0 et de 1 (grâce au code ASCII, que je précise plus bas).
Code informatique (qui est aussi du texte). Il est également uniquement constitué de caractères alphanumériques. À la différence des textes littéraires, le code informatique respecte les règles de langages, qui sont interprétés par les machines pour produire des actions : afficher quelque chose sur un écran, déclencher un transfert de données, faire un calcul, afficher une image, déclencher des moteurs pour imprimer des documents, faire rouler des trains, envoyer des messages via le réseau Internet à d’autres ordinateurs dont ils ont l’adresse, créer une interaction dans un jeu vidéo, déclencher l’enregistrement d’un fichier sur une clé USB, etc.
Images (fixes ou animées). Les images sont divisées en pixels. Ce sont des milliers de petits points côte à côte, chacun avec une couleur spécifique, qui reconstituent à nos yeux une image. C’est le même principe que l’imprimerie. Vous êtes-vous déjà approché d’une affiche ? On voit les points. La densité des points donne la « résolution » d’une image, c’est à dire sa qualité technique. Vous connaissez peut-être le terme « DPI » (Dot Per Inch) ? C’est le nombre de « points par pouce » imprimés sur du papier. 300dpi par exemple, représente 300 points sur la longueur de 2,4cm (un pouce), ce qui est une qualité qui nous semble parfaite. Les écrans des téléphones mobiles ont à peu près cette résolution. Chaque pixel est codifié par trois nombres correspondant aux proportions des trois couleurs primaires (Rouge, Vert, Bleu) qui constituent sa couleur unique.
Sons. Un son, dans le monde réel, est une variation de la pression de l’air, produite par la vibration des cordes vocales d’une personne par exemple. La vibration de l’air met en mouvement la très fine membrane (tympan) présente à l’intérieur de notre oreille, ce qui active le système de l’oreille interne, et produit des influx électriques, transmis à notre cerveau, qui enfin nous donne la sensation « d’entendre ». Pour transformer une vibration de l’air en des données numériques, on utilise un « transducteur » (un microphone), qui convertit cette vibration en un courant électrique variable. Ce courant électrique traverse un « convertisseur analogique-numérique », qui le mesure et le transforme en une suite de nombres. C’est un peu comme les pixels d’une image : la courbe du son est elle aussi « pixelisée », simplifiée, mais de façon suffisamment fine pour que l’oreille humaine ne le perçoive pas. Pour restituer le son, c’est le processus inverse : les données sont transformées en un courant électrique variable, grâce à un « convertisseur numérique-analogique », puis ce courant électrique variable est envoyé vers un « transducteur » (le haut-parleur), dont la membrane vibre alors de façon proportionnelle. La pression de l’air à proximité de la membrane varie, ce qui met nos tympans en mouvement.

La transformation des données en code binaire

Les données, en termes de nature, sont donc des textes (pour le texte et le code informatique) ainsi que des suites de nombres (pour les images et les sons). Pour pouvoir être stockées, transmises et traitées de façon automatisée par ces machines que nous appelons ordinateurs, ces données sont toutes codifiées, en « code binaire ». Ce sont ces millions de « 0 et 1 » qui se succèdent, les « bits » (Binary Digit), seuls éléments pouvant être traités par les ordinateurs actuels.

Les premières traces d’utilisation d’une codification binaire pour rendre plus fiables des calculs ou du stockage d’informations datent de 750 avant J.C. en Chine. Dans l’histoire jusqu’à aujourd’hui, nombreux furent les mathématiciens et les philosophes qui ont utilisé le binaire pour divers types d’opérations (mathématiques et logiques principalement). Ce manuscrit de Leibnitz de 1703 par exemple, décrit déjà exactement la façon dont les ordinateurs contemporains font leurs calculs :

Leibniz montre la correspondance entre le code binaire et notre code décimal. De la même manière que notre code décimal (qui est constitué de 10 chiffres) nous permet de représenter des nombres au delà de 9, le code binaire (qui est constitué de seulement 2 chiffres) permet lui aussi de représenter des nombres au delà de 2. On peut donc compter en binaire, de la même manière qu’on compte en décimal : écrire les nombres, les additionner, les soustraire, etc. On peut aussi faire des opérations logiques à partir du binaire : ET, OU, etc.

Ces opérations peuvent être exécutées par des machines, mécaniques, électriques ou électroniques, grâce à des composants spécifiques, qui traitent les informations binaires qu’on leur donne (par cartes perforées, influx mécaniques ou électriques, lumière clignotante, etc). C’est la base matérielle de l’informatique actuelle.

Les octets et le code ASCII

Tout d’abord, au lieu d’envisager les « 0 et 1 » isolément, on a décidé en 1956 de les grouper par 8, les « octets » (en anglais « Bytes »). Un octet, qui est donc constitué de 8 bits, permet de compter de 0 jusqu’à 255. Voici la correspondance entre nombres décimaux et nombres binaires (je répète Leibniz, dans ce tableau) :

Décimal	Binaire
0	00000000
1	00000001
2	00000010
3	00000011
4	00000100
…	…
253	11111101
254	11111110
255	11111111

D’accord… on peut stocker des nombres de 0 à 255 dans des octets, mais à quoi cela sert-il ?

Pour les textes, on a créé en 1963 le « code ASCII » (American Standard Code for Information Interchange), qui fait correspondre à chaque octet un caractère alphanumérique (minuscule, majuscule, caractères spéciaux, chiffres...). Voici le code ASCII, employé par tous les ordinateurs de la planète. Ce code est dans le domaine public, fort heureusement.

Et voici un petit tableau de synthèse de ce processus, fait par mes soins :

Le code ASCII est le standard unique utilisé de façon internationale aujourd’hui, qui fait que les chaînes de 0 et de 1 traitées par les ordinateurs (envoyées, reçues, manipulées) sont immédiatement converties en caractères alphanumériques. Ces textes reçus contiennent toujours des informations nécessaires à l’identification de leur nature, les métadonnées. Cette identification est formatée par des protocoles communs : adresse de l’expéditeur et du destinataire, type du fichier (texte simple, code informatique, image ou son par exemple), taille du fichier, etc., qui sont toujours placés aux mêmes endroits afin que l’interprétation en soit exacte. Par ailleurs, ces transferts intègrent un système de correction d’erreurs pour pouvoir être fiables (grâce à la théorie de l’information définie par Claude Shannon en 1948).

Concernant les images et les sons, un texte d’en tête en décrit la nature (le nombre de pixels horizontaux et verticaux entre autres) et les octets suivants sont employés sous forme de nombres pour décoder les pixels de l’image. Pour une image en couleur, chaque pixel nécessite 3 octets (soit trois fois huit suites de “0” et “1”) : chaque octet permet de stocker une valeur entre 0 et 255, pour chacune des trois couleurs primaires Rouge, Vert et Bleu, dont le mélange produit la couleur voulue. Cette combinaison permet 16 millions de couleurs possibles par pixel.

La matérialité du code binaire

Vous avez je l’espère à peu près compris comment textes, images et sons peuvent être transformés en des milliards de 0 et de 1 pour pouvoir être stockés, traités et transmis. Mais, concrètement, quelle est la matérialité des 0 et des 1 ?

Dans les fibres optiques qui transportent nos données, de la lumière, clignotant à haute vitesse, est transmise d’un bout à l’autre. Chaque instant lumineux représente l’information “1”, et chaque instant sans lumière représente l’information “0". Il y a des millions de clignotements par seconde, qui sont nos informations binaires.
De même, dans un câble téléphonique ADSL ou dans un câble réseau dans une entreprise, il y a du courant électrique ou pas de courant électrique, et ce à haute fréquence. Ce qui représente les “0” et les “1” (on se rappelle ces sont étranges à la connexion des anciens modems et Minitel).
Et concernant le stockage, sur un disque dur, qui est un support métallique, de minuscules zones sont aimantées ou non : ce sont les 0 et les 1.
Sur les CD, DVD et Blu-ray, il y a de microscopiques « microcuvettes », sur un support plastique placé devant une couche réfléchissante : ce sont les 0 et les 1.
Dans une clé USB, ce sont des sortes d’interrupteurs chimiques miniatures, placés côte à côte, allumés ou éteints, qui conservent leur état même sans électricité : les 0 et les 1 !
Enfin, des carrés noirs et blancs imprimés sur du papier représentent eux aussi les 0 et les 1, sur les QR Codes, qui sont employés de plus en plus souvent.

Ainsi, le numérique n’a rien de magique, il ne se trouve pas dans les nuages ! Nos données sont toujours bel et bien stockées matériellement quelque part. Si on ne se préoccupe pas par nous-même de leur lieu de sauvegarde et de sa pérennité, il n’y a pas de « Dieu tout puissant » qui le fera à notre place. La symbolique divine du numérique est un sujet pour la philosophie contemporaine, exploré en profondeur par Mark Alizart dans son ouvrage « Informatique Céleste » (PUF, 2017).

Pour résumer, nous utilisons de nouvelles technologies, qui nous mettent face à de nouvelles responsabilités.Les informaticiens ont la compétence technique, mais pas forcément une réflexion patrimoniale ; ils ont besoin de construire leurs missions en coopération. Ainsi, ouvrir des espaces de dialogue, en conscience des enjeux et des solutions envisagées, me semble être une démarche essentielle. Un exemple : la majorité des prestataires informatiques nous conseillent de mettre nos vidéos sur YouTube, Vimeo ou autre plate-forme, ce qui n’est pas une nécessité technique, c’est plutôt une habitude non pensée. Ce qui fait que lors de sauvegardes de nos sites web, tout est sauvegardé, sauf les vidéos… Vimeo peut faire faillite, YouTube peut modifier ses conditions d’utilisation… ces plate-formes ne sont pas des services publics. Ainsi, on s’assure d’une chose : c’est la perte à moyenne échéance de notre patrimoine vidéo. Cela me semble important d’en être conscients.

Stratégies de sauvegarde

Même si les grands industriels du numérique nous facilitent la vie et les usages en rendant très « fluides » nos expériences avec le numérique, il ne faut pas oublier que leur métier consiste uniquement à nous vendre des services au présent et de nous en rendre dépendants, pour de simples raisons commerciales.

Cette facilité d’accès ne doit donc pas nous faire oublier que nos données numériques sont matérielles et stockées quelque part, par quelqu’un qui n’a pas forcément l’altruisme d’assurer à notre place leur garantie de pérennité. Ce prestataire peut être fermé du jour au lendemain sans possibilité de récupérer les données (comme Megaupload en 2012, qui était très utilisé dans le secteur audiovisuel), subir un incendie, une attaque informatique, etc. Bien-sûr, c’est très rare, et c’est ce qui nous abuse d’autant plus, qui nous donne l’impression que nos données sont présentes dans un espace magique d’où elles semblent éternellement accessibles.

En réalité, nos données sont enregistrées sur des supports (aujourd’hui des disques durs) dans de très grands centres de données. Elles sont un peu comme un livre qui serait dans une bibliothèque municipale, qui ne nous appartient pas vraiment, même si nous pouvons l’emprunter. Contrairement à un livre que nous stockons dans notre bibliothèque chez nous, qui nous appartient pleinement et dont nous sommes aussi pleinement responsables (hygrométrie, sécurité incendie, etc.).

Aujourd’hui, il n’existe pas de support ni fiable ni pérenne de stockage des données numériques. Les disques durs ont une durée de vie moyenne de 7 ans et sont très fragiles, les clés USB ont un nombre de cycles d’accès limité, etc. Voici les deux recommandations qui font consensus aujourd’hui, articulées en deux temporalités :

Au présent : les données numériques doivent être dupliquées sur deux supports distincts, conservés en deux endroits différents (idéalement distants d’au moins 900 kilomètres, pour le risque nucléaire). Cela permet de prévenir les défaillances physiques (liées au support), contextuelles (dégât des eaux, cambriolage, etc) et humaines (effacement accidentel). Les systèmes de sauvegarde automatique proposés par Apple, Microsoft, Dropbox, Crashplan, Swiss Backup et autres, qui dupliquent en permanence le contenu de l’ordinateur ou du téléphone dans leurs “clouds”, apportent cette sécurité au présent.
Pour le futur : et si on arrête notre abonnement Dropbox par exemple ? Pour le futur, il est recommandé de recopier tous les 4 à 5 ans ces deux supports “anciens” sur deux nouveaux supports, qui seront aussi compatibles avec les nouvelles interfaces. Pas d’inquiétude, en vertu de la loi de Moore, les disques durs ont des capacités de plus en plus grandes pour des coûts équivalents, donc on ne multipliera pas les disques durs au fil du temps, au contraire. Par contre, pour pouvoir faire des sauvegardes, il convient de savoir où sont ses données ; une bonne organisation est clé.

Notre nouvelle responsabilité

En conclusion, soignez vos données numériques et leurs supports comme vous soignez vos livres précieux, car vos données numériques ne sont pas moins matérielles que vos livres. Elles ont l’avantage de pouvoir être dupliquées sans perte, mais elles ont l’inconvénient de ne pas avoir la solidité du livre, qu’il suffit de stocker sur une étagère pour le conserver dans le temps.

Les données numériques ont besoin d’attention renouvelée, et d’être dupliquées en deux lieux. Ce sont de nouvelles responsabilités qui nous incombent, liées à l’évolution des techniques. Mon avis personnel est que si nous ne prenons pas en main ces nouveaux devoirs de façon rationnelle, matérielle et avec bon sens, cela signifie que nous déléguons à d’autres cette responsabilité, c’est à dire que nous choisissons d’être irresponsables par rapport à notre patrimoine.

N’est-on pas responsable de l’entretien de sa maison ? C’est la même chose pour les données numériques. Même en tant que non spécialiste, nous avons prise sur les enjeux de nos données et nous pouvons construire des stratégies de construction patrimoniale, en se documentant, en expérimentant, en échangeant avec les autres. Cela peut sembler “prendre trop de temps alors qu’il y a tant de solutions rapides et faciles”. N’oublions pas que le patrimoine est la pierre angulaire de toute construction pérenne, qu’elle soit économique, culturelle ou politique.

Exemple : une solution intéressante pour les petites organisations

Il est possible de bénéficier du confort des services de « cloud », tout en étant pleinement propriétaire de ses données et responsable de leur sauvegarde : il suffit pour cela de faire l’acquisition d’un NAS (Network Attached Storage).

Il s’agit d’un disque dur aux fonctions spéciales, allumé en permanence dans notre bureau et branché à la box Internet. Il est accessible à distance avec ordinateur ou téléphone, et offre les services de documents bureautiques partagés (cf. Google docs), de partage de fichiers, agendas, contacts, musique, vidéo, etc. Les NAS procurent à peu près les mêmes services (et même souvent mieux) que les services « cloud » commerciaux. La différence, c’est que cela se fait en maîtrise et en responsabilité de ses propres données. Pour leur usage de base, les NAS sont configurables par des non informaticiens. Ils permettent aux petites organisations qui s’y investissent de mieux structurer leurs données de façon collective et de mettre en place des méthodes de travail plus efficaces, sûres et écologiques. L’investissement en temps et en attention pour la mise en place de ce type d’outil est très rapidement bénéfique.