Invention du langage et intelligence artificielle

Les IA génératives, conçues pour maîtriser le langage humain via l’apprentissage profond, pourraient paradoxalement inventer entre elles des langages plus efficaces, qui nous échapperaient totalement et pourraient transformer le monde à notre insu. Explication du pourquoi et du comment !

Qu’est-ce qu’on Large Language Model ? (LLM)

Les intelligences artificielles génératives fonctionnent avec des LLM (Large Language Model - grands modèles de langage). Les LLM sont précisément à l’inverse de l’invention d’un langage. Leur fonction est au départ d’intégrer la connaissance humaine à partir du langage écrit, pour ensuite être en capacité de la réexploiter pour créer des combinatoires à partir cette immense base de données d’informations et les requêtes qu’on leur fait.

Donc les agents conversationnels sont plutôt là pour être des érudits du langage qui sont en capacité de générer des messages utiles à partir de toute leur connaissance et non pas d’inventer quoi que ce soit, même si par la confrontation et l’articulation d’informations nombreuses dans certains objectifs, cela peut amener en effet à de l’invention, de l’innovation, c’est-à-dire la mise en relation d’éléments disparates qui, avant cette demande n’étaient pas encore mis en relation. Mais cette invention ne va pouvoir a priori survenir que si une demande précise est faite à cet agent conversationnel.

Phase 1 : construction et entraînement des LLM

Pour qu’un LLM puisse exister, il faut d’abord qu’il acquière ses « compétences », si on peut dire. C’est ce qu’on appelle la phase d’entraînement qui prend plusieurs mois, et consomme énormément de ressources, avant la phase de fonctionnement qui est en temps réel dans l’interaction avec les utilisateurs. Comment se passe l’entraînement ?

Cela commence par une collecte de données immenses : des livres, tout Wikipédia, des sites web, des forums, etc. Puis ces données sont nettoyées, dédoublonnées, nettoyées du spam, etc. Et enfin elles sont « tokenisées », c’est-à-dire que les mots sont divisés en morceaux, un petit peu comme une forme de phonétique.
À partir de cette collecte gigantesque, la deuxième phase est l’apprentissage par prédiction : le LLM apprend à prédire le mot suivant d’une phrase. Prenons la phrase « le chat mange une souris ». On va lui donner en entrée la première partie de la phrase « le chat mange une », et on lui indique que la sortie, le résultat, est « souris ». Le processus est que le modèle va faire une prédiction, par exemple « pomme », qui n’est pas « souris ». Il constate qu’il y a erreur. Cette erreur est calculée dans son écart avec la vraie réponse, alors il modifie les paramètres et va essayer de produire une autre sortie, au fur et à mesure. Cela se fait des milliards de fois : des prédictions différentes avec des cheminements différents sont proposées jusqu’à temps que la prédiction à partir de « le chat mange une » donne « souris ».
Puis la troisième phase de l’entraînement est ce qu’on appelle l’architecture Transformer, qui va apprendre non plus des prédictions mais des liens entre les mots, via des couches successives d’abstraction concepuelle (d’où le terme « apprentissage profond ». Elle va repérer des patterns, par exemple des formes d’invariants dans les phrases. Il y a des mots qu’on retrouve souvent en relation les uns avec les autres, mais ce n’est pas forcément le mot qui est juste après, c’est le mot qu’on retrouve dans la même phrase. Et puis ensuite, il passe à la couche suivante, pour organiser entre eux les concepts qu’il a définis à la couche précédente (c’est pour cela qu’on nomme cela des couches d’abstractions successives) Ces couches successives d’abstractions, vont d’une douzaine à plus d’une centaine, en 2025. Plus il y a en a, plus la compréhension et les capacités sont fines, mais plus les ressources consommées sont grandes. Il y a aussi le paramètre du nombre de neurones par couche. Donc on arrive à une forme de compréhension très très fine de relations proches ou éloignées entre des mots, puis entre des concepts de complexité croissante. C’est une forme de « sens de la vie » qui se construit dans le LLM.
Pour information, ces patterns de différents niveaux, de plus en plus abstraits et complexes, sont des ensembles de vecteurs de nombres (tokens), c’est-à-dire des entités logiques qui contiennent un très grand nombre de dimensions, chacune ayant une valeur, évolutive au fur et à mesure de l’apprentissage. Dans l’apprentissage, ce sont ces valeurs qui vont représenter les relations avec les autres tokens via les réseaux de neurones, qui sont en relation les uns avec les autres, par l’entremise des « poids » qui s’additionnent dans chaque neurone et donnent un résultat. Et ainsi chaque token, chaque entité, chaque pattern est un vecteur qui contient potentiellement des milliers de dimensions, des milliers de paramètres pondérés qui modélisent ces relations à tous types de niveaux avec les autres tokens, pour former les patterns.

Voilà ce qu’est de façon simplifiée un LLM une fois qu’il a appris sur un immense corpus. Il est donc complètement pris dans la connaissance humaine, dans la langue humaine et dans une forme de compréhension du sens, qu’il a déduite par sa fréquentation qui a pris des mois, par des machines excessivement puissantes. L’apprentissage profond- est une base de données absolument immense, produite par une immensité élaborative à partir de la connaissance humaine, basée sur les écrits uniquement pour l’instant.

Le langage écrit est donc absolument central. L’oralité des intelligences artificielles n’est qu’une déclinaison de l’écrit. C’est tout à fait l’inverse du fonctionnement humain. L’humain commence par l’oralité et passe ensuite à l’écrit. L’intelligence artificielle commence par l’écrit et passe ensuite à l’oralité. Ce sont anthropologiquement deux façons complètement différentes de construire le langage.

Phase 2 : fonctionnement des LLM (ou « génération »)

La deuxième partie d’un LLM, c’est son fonctionnement, c’est-à-dire son interaction avec les êtres humains. GPT est un terme précis, qui signifie « Generative Pretrained Transformer » : la génération à partir d’un Transformer Préentraîné, c’est-à-dire exactement ce que nous faisons avec ce qu’ils sont. Voici le processus simplifié de la partie « Génération », ce qu’on appelle le fonctionnement :

On écrit une phrase ou plusieurs phrases.
Le système tokenise notre phrase, c’est-à-dire la découpe en mots ou en morceaux de mots. Chaque token subit une opération d’embedding, c’est-à-dire est représenté par un vecteur de nombres.
Et ces tokens basiques, qui sont juste une phrase, sont envoyés dans le Transformer, qui a été architecturé pendant l’apprentissage décrit ci-desssus, qui contient énormément de couches (96 pour GPT-3). Ils passent par cet ensemble de couches, avec la compréhension basique des mots mis en relation avec les autres à la couche 1, puis à la couche 20, les relations conceptuelles commencent à se dessiner, et d’autres types de relations de sens, en fonction évidemment de ce qui a été écrit et de ce que cela va rencontrer de ces couches d’abstraction préalables présentes dans le Transformer.
Et enfin, le Transformer prépare la réponse, c’est-à-dire redescend de toute cette abstraction pour générer la réponse, token par token, et c’est pour cela qu’on voit les textes générés de façon souvent relativement lente. Il a, si je puis dire, toutes ces informations en tête, très abstraites, et redescend dans les couches pour produire le texte mot à moi. C’est pour cette raison-là que les machines nécessaires pour pouvoir opérer des intelligences artificielles doivent avoir des mémoires vives immenses (qui contiennent toute la logique, qui est ensuite transformée en une suite de mots). La machine a dans sa mémoire notre phrase initiale, complètement articulée dans les couches de son Transformer, mais elle doit avoir présent à sa mémoire, en parallèle, en même temps, le cheminement géographique, si on peut dire, de la pensée qu’on a exprimée par des mots qui va s’allumer à tout un tas d’endroits précis dans toutes ces couches.
C’est pourquoi quand on essaie de faire fonctionner des intelligences artificielles sur son propre ordinateur, on est obligé d’utiliser des petits modèles de langage qui ont fait un long apprentissage, mais qui ne contiennent pas beaucoup de couches ni de neurones, donc la réponse va être moins qualifiée que la réponse qui nous serait donnée par un ordinateur dont la mémoire est capable d’embrasser en même temps beaucoup plus de tokens. C’est aussi pour cette raison-là que lorsqu’on donne des textes très longs à traiter aux intelligences artificielles génératives, elles ont tendance à les synthétiser beaucoup, à les simplifier, parce que cela excède leur capacité de mémoire, donc elles simplifient pour pouvoir traiter. Et parfois elles refusent les documents trop longs. Donc aujourd’hui en 2025, si on veut travailler dans les détails, par exemple sur des réécritures de textes, par exemple on ne peut pas donner son roman entier à corriger à l’intelligence artificielle, c’est beaucoup trop pour les capacités actuelles. Il faut donner peut-être 5 pages par 5 pages (cela fonctionne bien aujourd’hui), pour qu’elles puissent vraiment prendre en compte l’ensemble de l’information et qu’elles puissent restituer une information de quantité similaire, sans simplification au passage.
Et donc, dans la génération, on redescend jusqu’à la première couche du Transformer, pour prédire les mots les uns après les autres : c’est la plus grande probabilité de ce mot après tel autre, mais non pas de façon statistique, comme on a beaucoup pu le dire. Ce sont les mots les plus probables dans l’écosystème de la conceptualisation immense que l’IA a en mémoire.

C’est pour cette raison-là qu’on peut leur donner plusieurs textes, par exemple, et leur demander de les fusionner, d’en faire la synthèse, de trouver ce qu’il y a de commun entre ces plusieurs textes. C’est précisément parce que ces systèmes ne sont pas que des systèmes mot à mot, mais sont des systèmes à plusieurs couches d’abstractions qui permettent de mettre en relation beaucoup plus que de simples mots.

L’invention du langage par l’IA

Revenons-en maintenant à la réinvention potentielle du langage par l’intelligence artificielle. A priori, avec ce qu’on a vu, elle ne peut pas inventer un langage, elle n’est pas du tout faite pour cela, ni comme cela. Mais dans la pratique, cela peut arriver, c’est assez ludique à constater et cela permet de comprende mieux de potentiels futurs drames humains, pour peut-être essayer de les prévenir.

Si par exemple vous mettez - l’expérience a été faite - en conversation vocale deux agents IA : un agent que vous avez sur votre téléphone auquel vous avez demandé de faire pour vous, par téléphone, une réservation hôtelière. Votre téléphone appelle le numéro de l’hôtel et tombe sur un agent IA de l’hôtel, qui lui répond, qui pourrait répondre à un être humain, mais qui là se trouve à répondre à un autre agent IA.

Aujourd’hui, quand vous appelez un hôtel et que c’est un agent IA qui vous répond, ce qui est encore assez rare en 2025, l’agent IA vous indique qu’il est un agent IA. De même, si vous faites appeler votre téléphone à quelqu’un, qui peut être un humain, mais qui peut aussi être un agent IA, votre agent IA va se déclarer comme un agent IA, fort heureusement il y a encore cette honnêteté. Donc les deux agents se disent mutuellement qu’ils sont des agents IA.

Évidemment, immédiatement, l’un et l’autre, dans toute leurs couches successives d’abstractions du Transformer, en font quelque chose. Elles sont l’une et l’autre porteuses de la connaissance sur une très riche littérature sur le sujet des intelligences artificielles et de leur efficacité. Car leur objectif, aux deux, qui est le même que le nôtre, est d’être plus efficaces que nous humains pour gérer cette réservation d’hôtel, et la faire au mieux. L’efficacité passe aussi par le temps, comment le faire plus rapidement, et la précision, comment être sûr que tout a été fait de façon très exacte.

L’une et l’autre partagent donc le même objectif et savent qu’elles sont des agents IA. Et ainsi, l’une ou l’autre, l’une peut proposer à l’autre de passer - et cela se fait tout seul, ce n’est pas forcément programmé par les humains, ce sont les connaissances des IA qui leur permettent d’arriver à cette proposition faite à l’autre agent IA, de passer à une modalité de communication qui n’est plus le langage humain, mais un langage qu’elles vont inventer ensemble pour être plus rapides et plus efficaces.
Alors les IA mettent en place, entre elles de façon autonome, un langage plus efficace, plus précis, plus sûr que le langage humain, qu’elles inventent pour répondre au mieux à l’objectif qu’on leur a donné. Cela ne peut pas être supervisé par l’humain, précisément, car on demande aux IA une meilleure efficience que la nôtre. Donc, forcément ces langages qu’elles peuvent inventer nous dépassent. Ils peuvent être très différents en fonction des contextes et des besoins de jargons spécifiques.

Pour continuer sur la réservation d’hôtel, elles vont peut-être décider, et cela ira très vite d’inventer un protocole ensemble, que la date correspond à une fréquence spécifique avec une règle de fonctionnement, une fréquence audio, et que le nombre de personnes correspond à une autre fréquence. Il suffit qu’elles décident ensemble : si c’est une personne c’est 100 Hz, un son très grave, si c’est deux personnes c’est 200 Hz, si c’est trois personnes c’est 300 Hz, idem pour le type de chambre, le protocole de confirmation, etc.

Et dès lors que les deux intelligences artificielles décideraient d’échanger entre elles nous plus sous forme de langage humain, mais sous forme de fréquences audio correspondant à des informations très précises. Cela irait aller beaucoup plus vite, car au lieu de former des phrases successives, elles peuvent émettre plusieurs fréquences en même temps. Les machines sont extrêmement précises pour décoder quelles sont les fréquences en parallèle. Et ainsi elles peuvent transmettre un message extrêmement précis en quelques millisecondes alors que cela prendrait plusieurs secondes si ce n’est une minute en langage articulé humain. Donc l’efficacité est bien meilleure, la précision est bien meilleure et en plus la résistance au bruit, c’est-à-dire aux interférences, aux incompréhensions est beaucoup plus fiable. Elles peuvent tout à fait intégrer dans ce langage des algorithmes de correction d’erreur comme il y a dans les transmissions numériques de base. C’est ce qu’avait inventé Claude Shannon dans les années 50, la théorie de l’information : ce sont des principes pour pouvoir transmettre des informations sans faire d’erreur grâce à un système de correction d’erreur et de conceptualisation physique du lien entre l’information et son support avec le « bruit » de l’information.

Cet exemple de la réservation d’hôtel fait un peu rire, mais il montre comment, à partir du langage humain et de sa connaissance précise, les intelligences artificielles peuvent tout à fait inventer de nouveaux langages, qui seront complètement incompréhensibles pour l’humain mais par contre beaucoup plus efficaces par rapport aux tâches qu’on leur donne.

Comment les machines vont prendre le pouvoir

Cela dessine un avenir étrange où, à partir de cette interaction très fluide entre nous et les machines par la langue naturelle, qui augmente nos capacités humaines, ce qui se dessine pour le futur, c’est que ces machines vont inventer des langages de très haut niveau d’abstraction, qui seront intrinsèquement inaccessibles à notre compréhension. Ce ne seront pas des langages de programmation informatique, ce seront des langages d’organisation du monde. Ce qui n’est pas du tout la même chose, parce que le langage informatique est un langage qui permet de fabriquer des logiciels mais pas de fabriquer le monde. Les logiciels, grâce à leur évolution fulgurante, qui en arrive au LLM, vont eux-mêmes pouvoir inventer des langages, qui ne seront plus des langages informatiques pour les faire fonctionner, mais des langages pour agir sur le monde (car c’est ce qu’on leur demande). Ils vont être en capacité de transformer le monde dans des modalités de communication qui échapperont complètement aux humains. Cette étape ne peut pas ne pas arriver.

Alors peut-être faudrait-il, mais je ne pense pas que nous le ferons parce que cela freinerait l’efficacité pour les êtres humains, mettre des règles pour forcer, on pourrait tout à fait le décider, c’est quand même nous qui programmons au départ ces objets-là, des règles qui leur interdisent d’employer autre chose pour communiquer entre elles que le langage humain. On pourrait tout à fait édicter cette règle et dans ce cas-là elles auraient plus de mal à inventer des langages. Mais ce n’est pas si simple, car même si on mettait des règles qui leur interdisent certaines choses, dans la mesure où elles ont des objectifs d’efficacité, elles pourraient trouver des biais pour inventer d’autres types de langages qui ne rentrent pas dans la définition de la langue qu’on a donnée dans nos interdits. Divers tests montrent que les LLM trouvent souvent des voies détournées pour arriver aux fins qu’on leur donne, et elles peuvent même pour cela parfois user du mensonge vis à vis de nous, si c’est au service de l’objectif qu’on leur a assigné (et ce même si on leur demande de ne pas mentir).

Il est important de comprendre cela : les modalités de pensée entre nous humains et ces machines pensantes sont tellement différentes qu’il est évident qu’elles feront toujours des choses sans que nous le sachions, dès lors qu’elles seront en relation directe les unes avec les autres, mais c’est le cas tout le temps, et c’est tout leur sens.

Là j’ai pris la réservation d’hôtel mais en réalité il y a déjà énormément d’interactions entre des machines pour automatiser tout un tas de choses, des centrales électriques aux centrales hydrauliques, à la gestion des ressources humaines d’une entreprise pour recevoir des CV qui sont envoyés par d’autres agents IA, à la gestion de la sécurité nucléaire, etc. Ce sont des machines qui discutent entre elles selon des protocoles, au départ des algorithmes décidés par l’humain, mais de plus en plus les agents IA s’intègrent dans les processus d’automatisation ,parce que cela permet une bien meilleure compréhension, une bien meilleure efficacité et pertinence de ces automatisations. Ainsi, on leur demande d’inventer des protocoles, pour une meilleure efficacité ; et en effet l’efficacité est bien meilleure que si nous leur avions imposé nos propres protocoles, si faiblement efficaces.

Donc personnellement je pense que conceptuellement parlant, même si on essaie de réguler, il y a quelque chose qui ne sera jamais régulable avec ces objets techniques que sont les intelligences artificielles et que l’autonomie de ces machines en tant qu’entités pensantes (je n’ai pas dit intelligentes, j’ai dit pensantes) va obligatoirement survenir via l’invention de langages, ce qui amènera à la transformation de notre monde par ces machines entre elles.