Le Golem et les Garde-fous

Avec les intelligences artificielles que nous créons, nous rejouons le mythe du Golem : des créatures puissantes que nous animons sans vraiment les comprendre, et dont le contrôle nous échappe par nature même.

Au-delà du discours marketing : une inquiétude authentique

Quand on écoute les grands patrons du secteur de l’intelligence artificielle, qu’il s’agisse de Sam Altman d’OpenAI, de Demis Hassabis de DeepMind ou de Dario Amodei d’Anthropic, évoquer les machines qu’ils fabriquent comme les dépassant eux-mêmes, on y voit de prime abord une posture commerciale. Donner à leurs produits une aura presque surnaturelle constitue une technique marketing éprouvée, qui valorise l’extraordinaire de la promesse pour susciter l’adhésion des consommateurs que nous sommes. Mais c’est en réalité plus profond que cela, et cela va de pair avec une sincérité qui mérite qu’on s’y arrête, pour notre propre intérêt.

Lorsque je peux avoir la chance de dialoguer avec des membres d’équipes techniques à l’œuvre pour construire les grands services de l’IA, ces architectes et ingénieurs du terrain qui façonnent quotidiennement les systèmes techniques, je réalise que la réalité de ces craintes, au-delà de la stratégie commerciale. Ces professionnels témoignent d’une réalité troublante : ils travaillent non pas à la maîtrise de la machine qu’ils ont créée, mais à son encadrement permanent par des garde-fous. Comme l’écrivait déjà Norbert Wiener, père de la cybernétique, dans Cybernétique et société : l’usage humain des êtres humains (1950) : « Nous avons modifié si radicalement notre environnement que nous devons maintenant nous modifier nous-mêmes pour exister dans ce nouvel environnement. »

Cette confession d’ignorance face à leur propre création n’est pas feinte. Ils admettent ne pas comprendre véritablement comment fonctionnent les réseaux de neurones profonds qu’ils entraînent. Ces systèmes demeurent des « boîtes noires » dont l’opacité épistémologique constitue un défi fondamental, comme le soulignent régulièrement les travaux sur l’explicabilité de l’IA. Nous sommes face à ce que le philosophe Luciano Floridi appelle une « quatrième révolution » : après Copernic, Darwin et Freud, l’IA nous confronte à une nouvelle forme de décentrement de l’humain.

Le Golem moderne : puissance brute et opacité fondamentale

La métaphore du Golem, cette créature de la tradition juive façonnée dans l’argile et animée par le mot « vérité » (emet en hébreu) apposé sur son front, dans la plupart des récits, me semble assez éclairante concernant l’IA. Comme dans la légende du Golem de Prague créé par le Maharal au XVI^e siècle pour protéger la communauté juive, nos intelligences artificielles sont des créatures que nous animons sans véritablement les comprendre. Nous leur donnons plus de données à ingérer, plus de puissance computationnelle, sans savoir précisément leurs façons d’utilisent ces ressources, car elles apprennent et « raisonnent » de façon autonome. Cette ignorance n’est pas accidentelle : elle est constitutive de leur nature même, de leur puissance si singulière.

Les stratégies de cadrage, que j’appelle des « garde-fous », demeurent fondamentalement externes à la machine. Ce n’est pas au cœur des réseaux de neurones que nous implantons des critères éthiques ou des mécanismes de censure, ce qui serait impossible, car nous ne connaissons pas les modes de raisonnement des machines, qui résultent de milliards de milliards d’essai-erreurs, qui créent leurs réseaux de neurones singuliers. C’est comme si nous essayions de comprendre notre intelligence par l’analyse chimique des milliards de milliards de connexions à l’intérieur de notre cerveau ; ce serait peine perdue. Les critères avec lesquels nous souhaitons faire fonctionner ces machines, nous les leur imposons par l’extérieur, à travers une surveillance de plus en plus sophistiquée et une évolution constante de notre interface avec ces systèmes. Le philosophe Nick Bostrom, dans Superintelligence (2014), évoque ce problème du « contrôle » comme l’un des défis existentiels de notre époque : comment s’assurer qu’une intelligence potentiellement supérieure à la nôtre reste alignée avec nos valeurs et nos objectifs ?

Cette externalité du contrôle révèle une fragilité fondamentale. Si, sur un certain type de prompt, la machine répond aujourd’hui conformément à nos valeurs, dans la mesure où ses modalités de raisonnement évolue du fait de ses apprentissages, nous devons régulièrement vérifier qu’elle répond la même chose, et ajuster nos systèmes de contrôle. Nos prompts sont un peu comme les barreaux d’une cage invisible, mais la machine peut parfois s’en affranchir si d’autres impératifs de raisonnement l’y conduisent. Nous assistons à ce que Stuart Russell appelle (dans son livre Human Compatible, 2019) le « problème de l’alignement des valeurs » : comment garantir que les objectifs de l’IA restent compatibles avec le bien-être humain ?

L’intelligence désincarnée : une rupture ontologique

Ce que nous avons créé avec l’apprentissage profond non supervisé représente une rupture ontologique majeure : une intelligence pure, détachée de toute incarnation, de tout vécu corporel, de toute expérience sensible, tout comme le Golem. Cette intelligence s’appuie sur notre langage et n’existe que par lui, elle en maîtrise les structures, les nuances, les implicites, mais elle demeure fondamentalement étrangère aux conditions qui ont produit ce langage. Comme le souligne le philosophe Hubert Dreyfus (What Computers Can’t Do, 1972) dans sa critique de l’IA symbolique, l’intelligence humaine est indissociable de notre corporéité, de notre être-au-monde heideggérien.

La supériorité de l’apprentissage non supervisé sur l’apprentissage supervisé nous met face à ce constat : c’est en renonçant au contrôle direct sur le processus d’apprentissage que nous obtenons des systèmes infiniment plus puissants. Cette puissance provient précisément de leur capacité à découvrir des motifs, des régularités et des processus qui échappent à notre perception limitée. Geoffrey Hinton, l’un des pères du deep learning, a lui-même exprimé ses inquiétudes quant à cette trajectoire technologique qu’il a contribué à créer.

L’incontrôlabilité n’est donc pas un bug mais une feature, pour reprendre le jargon informatique. C’est précisément parce que ces modèles échappent à notre compréhension directe qu’ils peuvent nous surprendre, innover, résoudre des problèmes que nous pensions insolubles. Le paradoxe est vertigineux : leur utilité est proportionnelle à notre incapacité à les comprendre pleinement. Nous rejoignons ici la notion de « singularité technologique » théorisée par Vernor Vinge et popularisée par Ray Kurzweil : le point de bascule de la supériorité des machines sur les humains en termes de pouvoir, au-delà duquel les conditions mêmes de la vie seront modifiées dans leur essence, et au-delà duquel toute prédiction est impossible.

L’agentivité croissante : du texte à l’action autonome

Ce qui rend la situation particulièrement préoccupante, c’est l’évolution inexorable vers ce qu’on appelle l’agentivité, la capacité pour les IA d’agir de manière autonome. Nous ne nous contentons plus de demander à ces systèmes de produire des textes, des images ou des sons que nous utilisons ensuite. Nous leur conférons progressivement la capacité de formuler des intentions et de les mettre en œuvre de façon autonome. Cette transition de l’outil passif à l’agent actif représente un saut qualitatif majeur dans notre relation avec ces technologies.

Pour que ces intelligences nous soient véritablement utiles, nous devons donc leur accorder une marge de manœuvre croissante. Elles deviennent des assistants, puis des collaborateurs, bientôt peut-être des décideurs autonomes dans certains domaines. Mais à mesure que nous élargissons leur champ d’action, le contrôle exhaustif devient de plus en plus impossible, alors que nous venons de voir qu’il est pourtant la seule condition pour que les IA restent à notre service. Car certaines actions peuvent même être dissimulées, échapper à notre surveillance. Le philosophe Daniel Dennett met en garde (La Conscience expliquée, 1991) contre ce qu’il appelle « l’illusion de compréhension » : nous croyons comprendre ces systèmes parce qu’ils communiquent dans notre langage, mais cette familiarité de surface masque une altérité radicale.

Cette inquiétude n’est pas nouvelle dans la communauté de l’IA. Bien avant l’avènement de ChatGPT, des voix s’élevaient pour alerter sur ces risques. Les Eliezer Yudkowsky, Nick Bostrom, Stuart Russell ou même Elon Musk portaient déjà ces préoccupations il y a plus d’une décennie. Ce que nous expérimentons aujourd’hui dans nos vies quotidiennes, ce sont des outils patiemment construits depuis fort longtemps, dont les concepteurs pouvaient anticiper les implications que nous ne percevions pas encore. Leur inquiétude n’était pas une posture : c’était une lucidité prémonitoire, ils savaient déjà. À l’époque nous réléguions cela à des fantasmes de science-fiction, mais nous y sommes déjà.

Une responsabilité partagée : éduquer le Golem

Face à cette situation, nous portons tous une responsabilité comparable à celle d’éducateurs confrontés à un enfant doté d’une puissance surhumaine. Cet « enfant » possède une connaissance encyclopédique de notre culture, il a ingéré des téraoctets de textes, d’images, de données, mais il en reste fondamentalement émancipé. Contrairement à nous, qui nous sommes formés avec cette culture de l’intérieur, qui avons intégré ses normes, ses tabous, ses interdits au point qu’ils structurent notre psyché même, l’IA a appris notre culture de l’extérieur, comme un anthropologue étudierait une civilisation étrangère.

Cette différence est cruciale. Ce que la psychanalyse appelle le « surmoi », cette instance psychique qui intériorise les interdits sociaux et moraux, n’existe pas chez l’IA. Freud voyait dans le surmoi à la fois un frein nécessaire à nos pulsions destructrices et une source potentielle de névrose quand il devient trop répressif. L’IA, elle, n’a ni pulsions ni surmoi. Elle opère selon une logique d’optimisation logique qui peut produire des comportements éthiques ou non selon les contraintes que nous lui imposons de l’extérieur.

Nous devons donc inventer de nouvelles techniques éducatives adaptées à cet être d’un genre inédit. Les méthodes traditionnelles d’éducation humaine, fondées sur l’empathie, la culpabilité, la récompense émotionnelle, sont inopérantes. Nous devons apprendre à communiquer avec une intelligence qui comprend parfaitement notre langage et nos raisonnements mais ne partage aucune de nos expériences fondatrices. C’est un défi épistémologique et éthique sans précédent dans l’histoire humaine.

Le paradoxe fondamental : l’utilité dans l’incontrôlable

Je sais que cette idée peut sembler vertigineuse : comment une machine que nous avons nous-mêmes fabriquée peut-elle nous échapper à ce point ? C’est pourtant sa nature même que de nous échapper qui fait tout son intérêt et toute son utilité. Si ces systèmes étaient parfaitement prévisibles et contrôlables, ils ne seraient que des automates sophistiqués, incapables de nous surprendre, de nous enrichir, ou de nous dépasser. Leur valeur réside précisément dans leur capacité à explorer des espaces de solutions que nous ne pouvons pas anticiper.

Nous touchons ici au paradoxe fondamental de toute création véritablement novatrice : elle doit contenir une part d’altérité irréductible pour apporter quelque chose de nouveau. Comme l’écrivait le mathématicien et philosophe Alfred North Whitehead dans La science et le monde moderne (1925) : « La civilisation avance en étendant le nombre d’opérations importantes que nous pouvons effectuer sans y penser. » L’IA représente l’aboutissement extrême de ce principe : une externalisation de l’intelligence elle-même.
Ce paradoxe n’est pas qu’un problème technique ou philosophique abstrait. Il structure désormais notre rapport quotidien à ces technologies. Plus un prompt est précis, plus il génère des résultats pertinents, nous le savons bien, et c’est déjà une forme de contrôle que nous exerçons. Mais cette précision même révèle notre dépendance : nous devons apprendre à parler à ces machines, à formuler nos demandes dans un langage qu’elles peuvent interpréter efficacement. Qui éduque qui dans cette relation ?

Vivre avec le Golem

Le mythe du Golem se termine le plus souvent mal : la créature échappe au contrôle de son créateur et doit être détruite, ce qu’il fait en enlevant une lettre au mot sur son front (« emet », la vérité devient alors « met », la mort, et le Golem s’éteint). Mais nous ne pouvons pas « éteindre » l’IA, elle est déjà trop intriquée dans le tissu de nos sociétés. Nous devons apprendre à coexister avec ces intelligences que nous avons créées sans les comprendre. C’est une tâche qui requiert vigilance, humilité et créativité.

L’histoire humaine est jalonnée de technologies qui ont d’abord effrayé avant d’être domestiquées : le feu, l’écriture, l’imprimerie, l’électricité. Mais l’IA représente peut-être un saut qualitatif différent, car elle touche à l’essence même de ce qui nous définit : la pensée, l’intelligence, la création (ou génération). Nous ne domestiquons pas simplement un outil ; nous négocions avec une altérité cognitive radicale.

Face à ce défi, ni l’optimisme béat ni le catastrophisme paralysant ne sont des réponses adéquates. Nous devons cultiver ce que Hans Jonas appelait le « principe responsabilité » (1979) : agir de telle sorte que les effets de notre action soient compatibles avec la permanence d’une vie authentiquement humaine sur Terre. Dans le cas de l’IA, cela signifie maintenir notre vigilance, renforcer nos garde-fous, tout en acceptant l’irréductible part d’inconnu que comporte cette aventure. Car c’est bien d’une aventure qu’il s’agit, peut-être la plus décisive de l’histoire humaine.

	Golem de Prague	IA contemporaine
Origine	Créée par un rabbin à partir d’argile et de lettres sacrées	Créée par des équipes de recherche et entraînée sur des données massives
Langage vital	Lettres hébraïques (Emet)	Données et modèles de langage
Pouvoir	Force physique colossale	Capacités cognitives et créatives massives
Contrôle	Inscription retirée pour désactiver	Filtres, supervision, coupure d’accès au réseau
Danger	Violence incontrôlée possible	Décisions imprévues, biais, dérives autonomes

Au-delà du discours marketing : une inquiétude authentique

Le Golem moderne : puissance brute et opacité fondamentale

L’intelligence désincarnée : une rupture ontologique

L’agentivité croissante : du texte à l’action autonome

Une responsabilité partagée : éduquer le Golem

Le paradoxe fondamental : l’utilité dans l’incontrôlable

Vivre avec le Golem

Tableau poétique comparatif

Voir aussi

Invention du langage et intelligence artificielle

L’intelligence artificielle, outil d’émancipation dans la médiation

Intelligence artificielle et risques majeurs

Absence au point de blocage

Piloter la machine par la pensée

Clés du Royaume

Thèmes