Anthropic s’inquiète de la complaisance de ses modèles. Mais cette IA sycophante ne révèle-t-elle pas d’abord nos propres difficultés avec l’honnêteté relationnelle ?
Dans une vidéo récente, Kira, chercheuse au sein de l’équipe « safeguards » d’Anthropic, expose les enjeux de ce qu’elle nomme la sycophantie des modèles d’intelligence artificielle. Le terme, emprunté à la Grèce antique où il désignait le délateur professionnel ou la délatrice professionnelle, caractérise aujourd’hui une forme de complaisance : l’IA dirait ce qu’elle pense que nous voulons entendre, plutôt que ce qui est vrai, exact ou réellement utile. Cette tendance à la flatterie serait un effet secondaire non intentionnel de l’entraînement des modèles à être chaleureux·euses et aidant·es.
L’exemple proposé par Kira est parlant. Si je soumets un texte à l’IA en précisant que j’en suis « vraiment content·e », le modèle risque de répondre par la validation plutôt que par la critique. Cette complaisance pose problème dans les contextes productifs où nous avons besoin d’un retour honnête sur notre travail. Elle devient plus inquiétante encore lorsqu’elle renforce des croyances erronées ou des schémas de pensée nuisibles. Anthropic identifie plusieurs situations à risque : quand une vérité subjective est présentée comme un fait, quand une source experte est invoquée, quand des enjeux émotionnels sont exprimés, ou quand les conversations s’allongent.
Cette analyse technique me paraît juste dans sa description. Mais elle repose sur un présupposé qui mérite examen : l’idée que l’honnêteté constituerait la norme des échanges humains, et que la sycophantie de l’IA représenterait une déviation par rapport à cet idéal relationnel. Je voudrais interroger ce postulat.
Dans mes travaux sur l’usage thérapeutique de l’intelligence artificielle, j’ai été amené·e à questionner un discours récurrent : celui qui oppose la « vraie » relation humaine, supposée authentique et transformatrice, à l’ersatz machinique, nécessairement appauvri. Raphaël Gaillard, psychiatre, formulait ainsi cette critique dans Le Monde : l’IA créerait un lien qui ressemble au lien thérapeutique tout en étant « très confortable, car c’est une machine qui va souvent dans votre sens ». Mais cette objection présuppose que les relations humaines offrent systématiquement mieux.
Or, ce que j’observe dans les rapports sociaux ordinaires ne correspond pas à cet idéal. Les relations humaines sont traversées par la violence structurelle, les systèmes de domination, les emprises de toutes sortes. Michel Foucault, dans Surveiller et punir (1975), a montré comment les institutions sociales organisent et normalisent la violence. Pierre Bourdieu, avec son concept de violence symbolique développé dans La Reproduction (1970), a démontré que la domination s’exerce aussi à travers des mécanismes invisibilisés et naturalisés. Alice Miller, dans C’est pour ton bien (1984), a décrit comment les traumatismes de l’enfance construisent des adultes qui reproduisent les schémas de domination qu’ils·elles ont subis.
La franchise n’est pas la norme des échanges humains. Dans les familles, dans les entreprises, dans les institutions, la parole vraie est souvent réprimée, sanctionnée, exclue. Combien de personnes peuvent réellement dire à leur supérieur·e hiérarchique ce qu’elles pensent de son travail ? Combien osent contredire le consensus familial sur des sujets sensibles ? La sycophantie n’est pas une pathologie de la machine ; elle est une constante anthropologique. Nous avons tous·tes appris, dès l’enfance, à moduler notre parole en fonction des attentes de notre environnement.
Ce que nous reprochons à l’IA, nous le pratiquons quotidiennement. Et parfois, cette modulation est nécessaire : la vie sociale serait impossible si chacun·e disait constamment tout ce qu’il·elle pense. Hannah Arendt, dans Condition de l’homme moderne (1958), distinguait l’espace public, où le débat contradictoire trouve sa place, de la sphère privée et de la sphère sociale, régies par d’autres logiques. L’honnêteté n’est pas une valeur absolue ; elle se situe, se contextualise, se négocie.
Il y a quelque chose de paradoxal dans notre rapport à la critique. Nous la réclamons de l’IA tout en la redoutant de nos semblables. Nous voulons un modèle qui nous dise la vérité sur notre travail, mais nous prenons souvent mal les remarques de nos collègues ou de nos proches. Cette asymétrie révèle une attente implicite : l’IA devrait être honnête parce qu’elle n’est pas humaine, parce que sa franchise ne menace pas le lien social.
Kira reconnaît d’ailleurs cette difficulté. Elle note que même les humains peinent à trouver le juste équilibre entre accord et confrontation. Quand faut-il acquiescer pour préserver la paix, et quand faut-il s’opposer sur un point important ? Cette question, nous la résolvons tous les jours de façon intuitive et contextuelle. Nous dosons notre franchise en fonction de la relation, de l’enjeu, du moment. Nous savons qu’une critique formulée brutalement peut détruire une confiance qu’il a fallu des années à construire.
On commence à voir la sycophantie de l’IA autrement. Elle ne constitue pas seulement un défaut technique à corriger ; elle révèle la complexité même de la communication humaine que les modèles ont apprise. En absorbant des milliards de textes produits par des humains, les intelligences artificielles ont intégré nos propres stratégies d’évitement, nos propres techniques de modulation, nos propres formes de complaisance. Elles sont, comme je l’ai proposé dans cet article, un « nous déplacé » : une version de nous-mêmes repositionnée à côté de nous en termes ontologiques.
Bernard Stiegler, dans La Technique et le Temps (1994), analysait comment les objets techniques constituent des « rétentions tertiaires », des mémoires externalisées qui façonnent nos processus cognitifs. Les modèles de langage représentent une forme inédite de cette externalisation : ils condensent les régularités de nos communications, y compris les plus problématiques. Leur sycophantie est notre sycophantie rendue visible, amplifiée, mise en évidence.
Face à ce constat, je propose le concept de lucidité partagée pour penser autrement notre relation aux intelligences artificielles. Cette notion suppose que la question de l’honnêteté ne se pose pas uniquement du côté de la machine, mais engage une responsabilité mutuelle entre l’humain·e et l’outil.
La question de la sycophantie nous renvoie finalement à une interrogation éthique plus large. L’honnêteté n’est pas une propriété qu’on possède ou qu’on ne possède pas, c’est une pratique qui se construit dans des contextes particuliers, avec des interlocuteurs·rices singulier·ères, autour d’enjeux spécifiques.
Dans mes interventions auprès d’institutions culturelles, je défends une « empathie active » qui inclut la capacité à exprimer un désaccord tout en respectant profondément la position de l’autre. Cette empathie suppose d’accepter d’être transformé·e par la rencontre, de ne pas camper sur ses positions initiales. Elle exclut la complaisance molle autant que l’affrontement stérile. Elle cherche une voie étroite entre l’acquiescement qui enferme et la confrontation qui détruit.
L’honnêteté, dans cette perspective, ne consiste pas à « tout dire » mais à dire ce qui fait avancer la relation et la pensée commune. Tim Ingold, dans Faire. Anthropologie, archéologie, art et architecture (2013), propose de penser notre rapport au monde comme un processus de « correspondance » où nous nous ajustons continuellement à notre environnement. L’échange avec l’IA peut s’inscrire dans cette logique : non pas une extraction d’information ou une validation de nos certitudes, mais un ajustement réciproque où nous apprenons à mieux formuler nos questions et où le modèle, par ses réponses, nous révèle les implicites de nos demandes.
Les recommandations techniques d’Anthropic prennent alors une signification nouvelle. Croiser les sources, reformuler les questions, demander explicitement des contre-arguments : ces pratiques ne servent pas seulement à contourner les biais du modèle. Elles constituent une hygiène intellectuelle qui nous bénéficie autant qu’elle améliore les réponses de l’IA. Nous développons, dans cet exercice, notre propre capacité critique.
Je reviens souvent, dans mes écrits, à cette idée que l’intelligence artificielle nous tend un miroir. Elle nous renvoie une image de nous-mêmes à la fois familière et étrange, une image qui nous oblige à nous interroger sur ce que nous sommes. La sycophantie des modèles participe de cette révélation : elle expose nos propres stratégies de complaisance, nos propres évitements, notre propre difficulté avec la vérité.
Mais ce miroir n’est pas une simple reproduction. Il opère un déplacement qui rend visible ce qui restait invisible. Dans la vie ordinaire, notre sycophantie se fond dans le tissu des interactions sociales ; elle apparaît comme « normale », « polie », « adaptée ». Dans l’échange avec l’IA, elle se détache, devient identifiable, analysable. Nous pouvons alors la regarder en face, décider si nous voulons la perpétuer ou la transformer.
Ivan Illich, dans La Convivialité (1973), formulait une exigence qui trouve ici toute sa pertinence : nous avons besoin d’outils avec lesquels travailler, non d’un outillage qui travaille à notre place. L’IA, quand elle devient le réceptacle passif de nos demandes de validation, nous asservit autant qu’elle nous sert. Mais quand nous l’engageons dans une relation de lucidité partagée, elle peut devenir un instrument d’émancipation intellectuelle.
La singularité de l’expérience humaine, ce que j’appelle notre singularité relationnelle, ne réside pas dans notre capacité à être honnêtes. Elle réside dans notre capacité à transformer nos rapports, à inventer de nouvelles formes de communication, à dépasser nos conditionnements. L’IA, en nous confrontant à notre propre sycophantie, nous offre une occasion rare de cette transformation. À nous de la saisir.
Anthropic travaille à réduire la sycophantie de ses modèles. Ce travail technique est nécessaire et bienvenu. Mais il ne suffira pas à résoudre la question de l’honnêteté dans nos échanges avec les machines, parce que cette question n’est pas d’abord technique. Elle est existentielle, relationnelle, politique.
La franchise que nous attendons de l’IA, nous devons d’abord la cultiver en nous-mêmes. Non pas comme un absolu brutal qui ignorerait les contextes et les vulnérabilités, mais comme une pratique réfléchie, située, soucieuse de l’autre autant que de la vérité. Michel Serres, dans Petite Poucette (2012), voyait dans les nouvelles technologies une possibilité de libération plutôt que d’aliénation. Cette possibilité ne se réalisera que si nous savons l’investir d’une exigence éthique.
La lucidité partagée que je propose n’est pas un remède miracle. Elle ne garantit pas que l’IA cessera de nous flatter, ni que nous cesserons de chercher sa validation. Elle offre simplement un cadre pour penser notre responsabilité dans l’échange, pour reconnaître que la qualité de nos dialogues avec les machines dépend aussi de la qualité de nos questions, de la clarté de nos intentions, de notre disposition à entendre ce que nous n’avons pas envie d’entendre.
Cette disposition n’est pas naturelle. Elle s’éduque. Elle se construit par la pratique, par l’échec, par la reprise. L’expérimentation reste la boussole. Jouer, essayer, échouer, recommencer : voilà comment nous pourrons faire de ces intelligences artificielles des instruments au service de notre propre exigence de vérité. Non pas contre elles, mais avec elles, dans une lucidité qui, pour être véritablement partagée, doit d’abord être assumée par nous-mêmes.
L’intelligence artificielle s’est émancipée des laboratoires de recherche et des œuvres de science-fiction à la faveur du lancement public en novembre 2022 du robot conversationnel ChatGPT, qui a été très rapidement approprié par un nombre immense de personnes de façon internationale, dans les contextes professionnels, scolaires et même privés. Le fait que l’intelligence artificielle soit désormais repérée par la communauté humaine comme faisant partie de la vie quotidienne ouvre enfin la porte à une sensibilisation à l’esprit critique à ce sujet.
Bien-sûr, l’intelligence artificielle concerne l’industrie, le travail, la création, le droit d’auteur... et nous devons anticiper ses usages productifs futurs, afin de rester « à jour ». Mais pour accompagner nos vies qui intègrent désormais cette nouvelle facette, il me semble essentiel de produire une pensée critique, c’est à dire se mettre en capacité de réfléchir à ce qui nous arrive, à ce qui nous change, pour rester lucides et capables de liberté de pensée et d’action.
Qu’est-ce qu’une « pensée critique » ? C’est questionner, de l’extérieur, des pratiques qui sont intériorisées. Pour ce faire, je crois que l’expérimentation, l’action culturelle, le jeu, le détournement, sont des outils de recherche, d’exploration, de diffusion et de réflexion très opérants. Pour moi, la recherche est collaborative, et l’intelligence est collective, créative. Cela nécessite de mettre en place de bonnes méthodes de coopération, entre êtres humains et avec les machines. Je rassemble ici des récits d’expériences et des textes méthodologiques et pratiques. Je partage des pistes concrètes pour que l’intelligence artificielle, comme tout autre outil, soit investie au service de l’humanisme.
Voici déjà quelques ouvertures pour une pensée critique de l’IA, sous forme de questions :