Le numérique est bien plus matériel qu’on le croit. Il me semble important d’en prendre la mesure de façon concrète, c’est ce qui peut permettre de construire de bonnes stratégies d’organisation de ses données numériques : mieux les gérer, ne pas les perdre dans le futur et en rester propriétaire. Les enjeux sont économiques, culturels, humains, démocratiques, écologiques, etc.
Avec mes nombreux interlocuteurs professionnels, je vois que des stratégies de “data” pensées collectivement sont très rares, alors qu’elles sont pourtant à mon sens essentielles. L’objet de cet article est de partager des ressources utiles pour ouvrir des espaces de pensée constructifs sur ces sujets.
Le numérique nous paraît immatériel, du fait du réseau Internet et des connexions sans fil présentes presque partout qui nous permettent d’accéder à nos données (réseaux sociaux, documents, musique, vidéo, photos, carnets d’adresses, agendas, etc.) où que l’on soit, sans besoin apparent d’un support concret.
Malgré tout, lorsque la connexion est mauvaise, nous percevons qu’il s’agit d’un lien à distance, que nos données sont dans un ailleurs auquel il faut se relier. Mais, même dans ces situations, comme le smartphone a aussi une mémoire interne et qu’un certain nombre de données sont dupliquées dans l’appareil (mises « en cache » comme on dit dans le jargon informatique), puis synchronisées dans le « cloud » à la prochaine connexion (c’est à dire recopiées sur les serveurs informatiques distants de nos fournisseurs de services, Google, Apple ou Microsoft par exemple), nous vivons dans une forme de connexion presque permanente, qui se joue des contraintes du réel.
Nous évoluons donc, grâce à ces formidables outils, au sein d’une sorte de « monde magique des données », qui dépasse les limites de l’espace et du temps. Je n’ai rien contre cette fluidité d’usage, qui est extrêmement pratique, mais elle risque de nous faire perdre pied pour prendre les bonnes décisions concernant la sécurité et la pérennité de nos données, personnelles mais surtout professionnelles.
La perte de données est bien plus courante qu’on le croit. L’exemple de l’incendie d’un data center de l’hébergeur web français OVH à Strasbourg en mars 2021, qui a occasionné la perte irrémédiable d’une immense quantité de données (culturelles, administratives, personnelles, médias, etc.) concernant plus de 400 000 sites Internet, a le mérite de nous ramener à la réalité. Et ce d’autant plus que, juridiquement, ce n’est pas OVH qui a été rendu responsable de la perte des données, mais les propriétaires de ces données, qui n’avaient pas mis en place de stratégies de sauvegardes ; cela relève de leur responsabilité, et non pas de celle d’OVH.
Ainsi, les clients d’OVH qui avaient pensé une stratégie de sauvegarde ont pu quasi immédiatement recouvrer leurs données et surmonter ce sinistre sans dommages ou presque. Mais les autres, la majorité, hébergés sur les mêmes serveurs, ont perdu leurs données à tout jamais.
Comment faire pour se prémunir ? Je vous propose de commencer par définir ce que sont concrètement les données numériques que nous manipulons au quotidien (nos textes, images, sons, posts sur les réseaux sociaux, etc.), afin de démystifier leur abstraction. Nous verrons leur nature fonctionnelle dans un premier temps, puis leur matérialité physique dans un second temps. Cela permettra de comprendre comment les machines traitent et manipulent les données numériques. Enfin, des pistes de stratégies de gestion et de préservation en découleront presque d’elles-mêmes par effet de bon sens.
Les données numériques sont de plusieurs natures (pour être plus précis, elles ont plusieurs types d’usages) :
Les données, en termes de nature, sont donc des textes (pour le texte et le code informatique) ainsi que des suites de nombres (pour les images et les sons). Pour pouvoir être stockées, transmises et traitées de façon automatisée par ces machines que nous appelons ordinateurs, ces données sont toutes codifiées, en « code binaire ». Ce sont ces millions de « 0 et 1 » qui se succèdent, les « bits » (Binary Digit), seuls éléments pouvant être traités par les ordinateurs actuels.
Les premières traces d’utilisation d’une codification binaire pour rendre plus fiables des calculs ou du stockage d’informations datent de 750 avant J.C. en Chine. Dans l’histoire jusqu’à aujourd’hui, nombreux furent les mathématiciens et les philosophes qui ont utilisé le binaire pour divers types d’opérations (mathématiques et logiques principalement). Ce manuscrit de Leibnitz de 1703 par exemple, décrit déjà exactement la façon dont les ordinateurs contemporains font leurs calculs :
Leibniz montre la correspondance entre le code binaire et notre code décimal. De la même manière que notre code décimal (qui est constitué de 10 chiffres) nous permet de représenter des nombres au delà de 9, le code binaire (qui est constitué de seulement 2 chiffres) permet lui aussi de représenter des nombres au delà de 2. On peut donc compter en binaire, de la même manière qu’on compte en décimal : écrire les nombres, les additionner, les soustraire, etc. On peut aussi faire des opérations logiques à partir du binaire : ET, OU, etc.
Ces opérations peuvent être exécutées par des machines, mécaniques, électriques ou électroniques, grâce à des composants spécifiques, qui traitent les informations binaires qu’on leur donne (par cartes perforées, influx mécaniques ou électriques, lumière clignotante, etc). C’est la base matérielle de l’informatique actuelle.
Tout d’abord, au lieu d’envisager les « 0 et 1 » isolément, on a décidé en 1956 de les grouper par 8, les « octets » (en anglais « Bytes »). Un octet, qui est donc constitué de 8 bits, permet de compter de 0 jusqu’à 255. Voici la correspondance entre nombres décimaux et nombres binaires (je répète Leibniz, dans ce tableau) :
| Décimal | Binaire |
|---|---|
| 0 | 00000000 |
| 1 | 00000001 |
| 2 | 00000010 |
| 3 | 00000011 |
| 4 | 00000100 |
| … | … |
| 253 | 11111101 |
| 254 | 11111110 |
| 255 | 11111111 |
D’accord… on peut stocker des nombres de 0 à 255 dans des octets, mais à quoi cela sert-il ?
Pour les textes, on a créé en 1963 le « code ASCII » (American Standard Code for Information Interchange), qui fait correspondre à chaque octet un caractère alphanumérique (minuscule, majuscule, caractères spéciaux, chiffres...). Voici le code ASCII, employé par tous les ordinateurs de la planète. Ce code est dans le domaine public, fort heureusement.
Et voici un petit tableau de synthèse de ce processus, fait par mes soins :
Le code ASCII est le standard unique utilisé de façon internationale aujourd’hui, qui fait que les chaînes de 0 et de 1 traitées par les ordinateurs (envoyées, reçues, manipulées) sont immédiatement converties en caractères alphanumériques. Ces textes reçus contiennent toujours des informations nécessaires à l’identification de leur nature, les métadonnées. Cette identification est formatée par des protocoles communs : adresse de l’expéditeur et du destinataire, type du fichier (texte simple, code informatique, image ou son par exemple), taille du fichier, etc., qui sont toujours placés aux mêmes endroits afin que l’interprétation en soit exacte. Par ailleurs, ces transferts intègrent un système de correction d’erreurs pour pouvoir être fiables (grâce à la théorie de l’information définie par Claude Shannon en 1948).
Concernant les images et les sons, un texte d’en tête en décrit la nature (le nombre de pixels horizontaux et verticaux entre autres) et les octets suivants sont employés sous forme de nombres pour décoder les pixels de l’image. Pour une image en couleur, chaque pixel nécessite 3 octets (soit trois fois huit suites de “0” et “1”) : chaque octet permet de stocker une valeur entre 0 et 255, pour chacune des trois couleurs primaires Rouge, Vert et Bleu, dont le mélange produit la couleur voulue. Cette combinaison permet 16 millions de couleurs possibles par pixel.
Vous avez je l’espère à peu près compris comment textes, images et sons peuvent être transformés en des milliards de 0 et de 1 pour pouvoir être stockés, traités et transmis. Mais, concrètement, quelle est la matérialité des 0 et des 1 ?
Ainsi, le numérique n’a rien de magique, il ne se trouve pas dans les nuages ! Nos données sont toujours bel et bien stockées matériellement quelque part. Si on ne se préoccupe pas par nous-même de leur lieu de sauvegarde et de sa pérennité, il n’y a pas de « Dieu tout puissant » qui le fera à notre place. La symbolique divine du numérique est un sujet pour la philosophie contemporaine, exploré en profondeur par Mark Alizart dans son ouvrage « Informatique Céleste » (PUF, 2017).
Pour résumer, nous utilisons de nouvelles technologies, qui nous mettent face à de nouvelles responsabilités.Les informaticiens ont la compétence technique, mais pas forcément une réflexion patrimoniale ; ils ont besoin de construire leurs missions en coopération. Ainsi, ouvrir des espaces de dialogue, en conscience des enjeux et des solutions envisagées, me semble être une démarche essentielle. Un exemple : la majorité des prestataires informatiques nous conseillent de mettre nos vidéos sur YouTube, Vimeo ou autre plate-forme, ce qui n’est pas une nécessité technique, c’est plutôt une habitude non pensée. Ce qui fait que lors de sauvegardes de nos sites web, tout est sauvegardé, sauf les vidéos… Vimeo peut faire faillite, YouTube peut modifier ses conditions d’utilisation… ces plate-formes ne sont pas des services publics. Ainsi, on s’assure d’une chose : c’est la perte à moyenne échéance de notre patrimoine vidéo. Cela me semble important d’en être conscients.
Même si les grands industriels du numérique nous facilitent la vie et les usages en rendant très « fluides » nos expériences avec le numérique, il ne faut pas oublier que leur métier consiste uniquement à nous vendre des services au présent et de nous en rendre dépendants, pour de simples raisons commerciales.
Cette facilité d’accès ne doit donc pas nous faire oublier que nos données numériques sont matérielles et stockées quelque part, par quelqu’un qui n’a pas forcément l’altruisme d’assurer à notre place leur garantie de pérennité. Ce prestataire peut être fermé du jour au lendemain sans possibilité de récupérer les données (comme Megaupload en 2012, qui était très utilisé dans le secteur audiovisuel), subir un incendie, une attaque informatique, etc. Bien-sûr, c’est très rare, et c’est ce qui nous abuse d’autant plus, qui nous donne l’impression que nos données sont présentes dans un espace magique d’où elles semblent éternellement accessibles.
En réalité, nos données sont enregistrées sur des supports (aujourd’hui des disques durs) dans de très grands centres de données. Elles sont un peu comme un livre qui serait dans une bibliothèque municipale, qui ne nous appartient pas vraiment, même si nous pouvons l’emprunter. Contrairement à un livre que nous stockons dans notre bibliothèque chez nous, qui nous appartient pleinement et dont nous sommes aussi pleinement responsables (hygrométrie, sécurité incendie, etc.).
Aujourd’hui, il n’existe pas de support ni fiable ni pérenne de stockage des données numériques. Les disques durs ont une durée de vie moyenne de 7 ans et sont très fragiles, les clés USB ont un nombre de cycles d’accès limité, etc. Voici les deux recommandations qui font consensus aujourd’hui, articulées en deux temporalités :
En conclusion, soignez vos données numériques et leurs supports comme vous soignez vos livres précieux, car vos données numériques ne sont pas moins matérielles que vos livres. Elles ont l’avantage de pouvoir être dupliquées sans perte, mais elles ont l’inconvénient de ne pas avoir la solidité du livre, qu’il suffit de stocker sur une étagère pour le conserver dans le temps.
Les données numériques ont besoin d’attention renouvelée, et d’être dupliquées en deux lieux. Ce sont de nouvelles responsabilités qui nous incombent, liées à l’évolution des techniques. Mon avis personnel est que si nous ne prenons pas en main ces nouveaux devoirs de façon rationnelle, matérielle et avec bon sens, cela signifie que nous déléguons à d’autres cette responsabilité, c’est à dire que nous choisissons d’être irresponsables par rapport à notre patrimoine.
N’est-on pas responsable de l’entretien de sa maison ? C’est la même chose pour les données numériques. Même en tant que non spécialiste, nous avons prise sur les enjeux de nos données et nous pouvons construire des stratégies de construction patrimoniale, en se documentant, en expérimentant, en échangeant avec les autres. Cela peut sembler “prendre trop de temps alors qu’il y a tant de solutions rapides et faciles”. N’oublions pas que le patrimoine est la pierre angulaire de toute construction pérenne, qu’elle soit économique, culturelle ou politique.
Il est possible de bénéficier du confort des services de « cloud », tout en étant pleinement propriétaire de ses données et responsable de leur sauvegarde : il suffit pour cela de faire l’acquisition d’un NAS (Network Attached Storage).
Il s’agit d’un disque dur aux fonctions spéciales, allumé en permanence dans notre bureau et branché à la box Internet. Il est accessible à distance avec ordinateur ou téléphone, et offre les services de documents bureautiques partagés (cf. Google docs), de partage de fichiers, agendas, contacts, musique, vidéo, etc. Les NAS procurent à peu près les mêmes services (et même souvent mieux) que les services « cloud » commerciaux. La différence, c’est que cela se fait en maîtrise et en responsabilité de ses propres données. Pour leur usage de base, les NAS sont configurables par des non informaticiens. Ils permettent aux petites organisations qui s’y investissent de mieux structurer leurs données de façon collective et de mettre en place des méthodes de travail plus efficaces, sûres et écologiques. L’investissement en temps et en attention pour la mise en place de ce type d’outil est très rapidement bénéfique.
Au XXIe Siècle, la plus grande partie des productions humaines est fabriquée avec des outils numériques et circule sous forme numérique : écrit, photo, son, vidéo, multimédia...
Qu’est-ce que le patrimoine ? C’est l’accès aux productions humaines du passé et du présent (culturelles, artistiques, industrielles, bâties, financières...). Le patrimoine a une valeur culturelle, politique, économique, historique. Sans patrimoine les sociétés n’ont pas d’histoire. Sans Tour Eiffel, sans Sacré Cœur, sans Musée du Louvre et autres éléments du patrimoine architectural, Paris n’aurait pas d’économie du tourisme par exemple.
Le patrimoine que nous allons être en capacité de construire à partir des productions numériques contemporaines contribuera fortement à notre richesse future, dans tous les sens du terme. Mais comment identifier, constituer et valoriser le patrimoine numérique ? Éléments méthodologiques, techniques et stratégiques.