Depuis ChatGPT en 2022, l’IA générative transforme nos modes de création et de pensée. Ces technologies, liées aux formes artistiques, modifient nos représentations du monde. Je vous invite à explorer, d’une façon atypique et peut-être un peu dérangeante, leurs impacts sur l’écriture de scénarios. Le but est de se préparer à des changements très profonds.
Les technologies d’intelligence artificielle générative avancent à très grande vitesse depuis la sortie de ChatGPT en novembre 2022, le premier agent conversationnel général dopé au deep learning. Il me semble important et intéressant de dater cet article, qui est du mois de janvier 2025, et peut-être aura-t-il plusieurs occurrences futures, plusieurs mises à jour.
Il faut à mon sens conserver des traces de notre relation à l’intelligence artificielle, car les outils d’intelligence artificielle sont intimement liés aux formes artistiques que nous produisons. Il faut faire écho entre les méthodes de travail et les techniques en présence. Comprendre de l’intérieur la fabrique des productions culturelles — films, spectacles, livres, musique, etc. — est important, car c’est notre culture, nos représentations du monde qui s’y construisent.
J’aborde ici les implications créatives de l’intelligence artificielle pour l’écriture de scénario, en date du mois de janvier 2025, et selon mon point de vue, qui est partiel, comme tout point de vue sur ce sujet. Il me semble impossible de réfléchir de manière exhaustive, car il y a énormément d’expérimentations en parallèle partout dans le monde ; assumons notre partialité.
Il y a quelques jours, je parlais avec une personne cadre dans une grande entreprise de la technologie, qui me disait que, pour elle, les changements produits par l’intelligence artificielle utilisable par tous aujourd’hui sont comparables à ceux qu’avait provoqué l’arrivée massive du téléphone mobile au début des années 2000, et surtout à partir de 2005 avec la 3G, c’est-à-dire l’accès à Internet sur les téléphones mobiles. Cette technologie, et surtout son usage très répandu, a induit des modifications anthropologiques, c’est-à-dire des changements dans les modes de vie, voire dans les conditions de vie. Je trouve ce regard assez juste. Même s’il s’agit de deux technologies complètement différentes, appliquées à des aspects distincts des phénomènes humains, je trouve qu’il est éclairant d’envisager ainsi l’intelligence artificielle et la façon dont elle s’intègre dans nos vies et en modifie assez rapidement la nature.
Cette comparaison permet de prendre conscience qu’avec les intelligences artificielles, nous n’en sommes qu’au début. Les téléphones mobiles, au fur et à mesure qu’ils se sont installés dans nos vies, ont modifié de plus en plus d’aspects de notre quotidien. Il en ira de même pour l’intelligence artificielle. On pourrait aussi établir une comparaison avec les questions écologiques : les téléphones mobiles sont très dangereux pour la santé, et l’intelligence artificielle est très consommatrice de ressources naturelles, ce qui pose des enjeux écologiques au sens large.
Revenons au scénario. En quoi les intelligences artificielles peuvent-elles influencer l’écriture de scénarios ? Qu’est-ce qui se passe en profondeur ? Je propose de regarder le sujet avec attention, car il y a une façon superficielle de l’aborder, qui consiste à se dire que l’intelligence artificielle permet de faire des recherches plus rapidement qu’avec Google. En effet, Google et Internet existent déjà, et l’intelligence artificielle apparaît comme une nouvelle fonction d’Internet, une nouvelle façon d’accéder aux données humaines de manière structurée et formulée. Alors qu’une recherche Google fournit une liste de résultats non formulés, l’intelligence artificielle s’appuie sur les mêmes données statistiques, mais produit une formulation synthétique.
Oui, l’augmentation de la vitesse de traitement peut sembler significative, mais il s’agit davantage d’une évolution que d’un changement profond. Grâce à l’intelligence artificielle, on fera moins de fautes, on gagnera du temps sur le formatage automatique des scénarios, etc. Tout cela est important, mais on reste dans le champ de l’évolution. Ce qui me semble plus important, c’est de comprendre comment l’intelligence artificielle pourrait remplacer l’auteur. C’est un sujet qui fâche les scénaristes, car on se demande : à quoi servons-nous si une machine peut nous remplacer ?
Bien sûr, on peut entendre dire que la machine ne remplacera jamais l’humain, que l’imagination est proprement humaine, etc. Je suis désolé pour ceux que cela pourrait choquer, mais je vais dresser des perspectives qui me semblent plutôt encourageantes. Je vous invite à lire jusqu’à la fin, même si ce que vous allez lire maintenant va peut-être vous heurter.
Il me semble que ce qui est le plus important avec l’intellligence artificielle, ce sont les changements qu’elle va produire sur le monde. On ne peut pas prédire ces changements, mais on peut s’y préparer. Évidemment, le futur nous surprend toujours, mais je crois que plus on s’y prépare, et plus on se rend capable de s’adapter aux surprises qui vont survenir. Si je ne me prépare pas à des changements, je vais croire ou me faire croire que les choses seront comme avant, et, face au changement, je serai extrêmement démuni et déstabilisé. Alors que si je peux imaginer que le monde va changer, même de façon assez profonde, eh bien, même s’il est à peu près évident que les changements qui surviendront ne seront pas ceux que j’avais imaginés, je me serai préparé au changement. Les futurs changements me surprendront tout autant que quelqu’un d’autre, mais j’aurai anticipé en moi une forme d’agilité mentale qui me permettra de m’y adapter, d’anticiper, donc peut-être de faire mieux faire avec.
Prenons un exemple hors du champ de l’audiovisuel, pour poser les bases du concept que je propose dans cet article. En 1997, la machine Big Blue, un ordinateur IBM, a battu l’humain aux échecs. Le champion du monde d’échecs de l’époque, Garry Kasparov, a été battu par un ordinateur ! Il serait difficile de parler d’intelligence artificielle, quoique c’est le terme qu’on pouvait employer à l’époque, parce qu’il s’agit de ce qu’on appelle la « force brute ». Il y a un nombre très important mais limité de coups aux échecs. Ainsi, la machine pouvait anticiper tous les coups possibles à partir d’une étape du jeu et ainsi, parmi tous les coups possibles, choisir celui qui lui garantissait les meilleures chances de succès, donc, de façon statistique, à chaque étape, choisir la meilleure solution pour gagner la partie. Cette force brute n’est pas très intéressante, même si elle est très efficace. Tout ne peut pas fonctionner en force brute.
Il y a eu un exemple ultérieur en 2016, c’est AlphaGo. C’est un logiciel de Google qui a fait égalité avec le plus grand joueur mondial de Go. La différence entre le Go et les échecs, c’est que dans le jeu de Go, il y a une infinité de coups possibles. Ainsi, la force brute ne peut pas être opérante pour le jeu de Go. Alors comment la machine a-t-elle fait pour gagner ? A l’époque, personne n’aurait cru qu’une machine serait capable d’égaliser ou de vaincre l’humain au jeu de Go ; on pronostiquait que cela arriverait sans doute, mais peut-être 30 ans plus tard. Et pourtant, ça s’est passé, grâce à l’apprentissage profond, le deep learning, qui est employé par les intelligences artificielles génératives d’aujourd’hui.
L’apprentissage profond fonctionne de la manière suivante : on donne à une machine des données d’entrée, et on lui donne un résultat à atteindre. Par exemple deux photos, et le résultat à atteindre, ce sont les deux prénoms de ces deux personnes. Comment la machine peut-elle apprendre à les reconnaître, c’est-à-dire à construire un « raisonnement » qui lui permet d’associer une image à un prénom ? Ce concept est celui du Perceptron, mis à jour, qui fut conçu et programmé en 1957 par Frank Rosenblatt ; on voit que notre réalité actuelle se prépare dans les laboratoires des chercheurs depuis bien longtemps ! On commence par diviser la photo en un certain nombre de pixels. Chaque pixel est relié à un « neurone » logique, qui a un « poids » dans sa relation aux autres. Il y a une première couche de neurones qui représente l’ensemble des informations de la photo. On donne un certain poids à chaque pixel. Puis ils vont se mettre en relation, pour produire une couche supérieure de neurones moins nombreux, en relation autrement, de façon plus « qualifiée », qui vont produire une couche supérieure et ainsi de suite. C’est ce qu’on appelle les couches d’abstraction. On aboutit à une sorte de représentation symbolique, très synthétique qui va faire que cette grande complexité de neurones correspondra finalement à un mot, un prénom.
Il faut donc entraîner les machines. C’est l’opération la plus lourde et la plus onéreuse dans les intelligences artificielles, c’est pour cette raison qu’on nous dit que chatGPT par exemple, ne prend pas en compte le présent, mais des informations jusqu’à une certaine date, car le temps et le coût de l’entraînement est immense. Comment se passe l’entraînement ? On demande à la machine, à travers les couches de neurones, de produire une suite de lettres. Elle va emprunter un grand nombre de chemins, à travers les couches, pour produire des suites de lettres différentes. Mais comment la machine va-t-elle trouver le bon chemin vers la bonne suite de lettres ? Cela se passe grâce à ce qu’on appelle la « rétroprogation de l’erreur ». Pour le résumer, on va la faire revenir en arrière pour corriger le chemin, et le préciser au fur et à mesure, afin d’atteindre la bonne suite de lettre qui est le bon prénom (qui a été donné pour l’apprentissage). A l’intérieur, c’est comme s’il y avait deux interlocuteurs : l’un chemine et l’autre lui demande de revenir en arrière et de corriger.
Une fois que l’apprentissage est fait, on ne sait pas, en tant qu’humain, quel est le chemin. Ce n’est pas un algorithme qu’on aurait maîtrisé, c’est cette « machine-double » qui l’a elle même patiemment forgé. On ne sait pas exactement quel est le raisonnement, et d’ailleurs, peut-on appeler ça un raisonnement ? Mais, force est de constater qu’à partir de cette image, il y a une traversée des couches qui arrive à ce prénom. Et ensuite, si on donne à la machine une autre image de la même personne, mais prise sous un autre angle, avec une autre lumière, éventuellement avec un autre âge, etc., eh bien en traversant les couches successives, la machine va pouvoir retrouver le même prénom, parce qu’elle en « comprend » ce qui y est commun. Pour créer ce « raisonnement », il y a eu dans le système de l’apprentissage une confrontation, et c’est la confrontation qui fabrique le raisonnement. Je réévoquerai ce sujet lorsque je reviendrai au scénario.
Revenons à AlphaGo. Cette machine a imaginé, si on peut dire, par le système d’apprentissage profond que je viens d’expliquer de façon simplifiée, des coups, des séquences, des ouvertures, uniques par sa modalité inhumaine de raisonnement. Nous, humains, ne raisonnons pas de la même manière. On ne passe pas des mois et des années dans des boucles de rétroaction. On ne sait pas très bien comment nous apprenons, mais on suppose que ça se passe autrement. Et donc, AlphaGo a inventé des ouvertures que l’humain n’avait jamais inventées, car AlphaGo a une « modalité de raisonnement » différente de la modalité de raisonnement humaine. Et aujourd’hui, il y a des joueurs de Go qui utilisent des coups, des ouvertures notamment, qui ont été imaginées par AlphaGo ! La capacité singulière d’imagination de la machine a enrichi nos connaissances et capacités humaines.
Passons maintenant au sujet principal de cet article : « Des machines scénaristes ». Si on reprend le principe de confrontation qui permet le raisonnement, on peut reprocher aux intelligences artificielles génératives d’aujourd’hui de produire des résultats très convenus. Par exemple, si on lui demande d’écrire un scénario de film d’amour, elle s’appuie sur tout ce qu’elle peut trouver sur le sujet et produit une sorte de statistique du film, sans aucune originalité. Ainsi, a priori, pas de crainte de concurrence !
Cependant, on le sait, plus on rentre dans les détails de nos demandes (les « prompts » et la conversation » avec la machine), plus l’intelligence artificielle fournit des résultats pertinents, détaillés et singuliers, qui nous ouvrent des potentialités d’imaginaire que nous n’aurions pas eues sans elles.
Donc si on imagine que deux intelligences artificielles génératives dialoguent pour écrire un scénario ensemble, et qu’on prend deux intelligences artificielles génératives qui ont des algorithmes vraiment différents, conçus par des laboratoires différents, elles ont déjà des confrontations à l’intérieur d’elles-mêmes, mais en faisant dialoguer des outils différents, cela donne une forme d’altérité. Et si on leur donne pour instruction d’aller pousser l’autre à aller vers du nouveau, vers des choses qui sont peu faites, eh bien… elles vont le faire !
Allons un peu plus loin : pour s’enrichir de nos différences, en tant qu’humains, nous devons mettre en place des espaces de dialogue et d’intelligence collective, ce qui fonctionne assez bien à deux, mais qui est de plus en plus difficile à mesure qu’on est plus nombreux.
Et si on fabrique des logiciels d’écriture de scénarios qui contiennent en eux-mêmes ces deux moteurs différents ? Ce ne sont que des machines, donc de 2, on peut passer à 4, 8, 16, 32, 64, 128, 256, 512, etc. On peut multiplier l’intelligence collective des machines avec la puissance de calcul de façon exponentielle, ce qui est impossible avec les intelligences humaines. Donc on peut imaginer aisément des imaginaires qui se construisent, des façons de raconter des histoires différentes de nos façons convenues habituelles, des rythmes, des logiques narratives, des façons de travailler sur nos perceptions du temps, de l’espace. On peut tout à fait anticiper, tout comme l’a fait AlphaGo en son temps, que des machines toutes seules, grâce à ce système d’apprentissage profond, inventent des formes d’expression qui soient tout à fait enrichissantes pour nous, êtres humains, et que nous n’aurions jamais pu concevoir par nous-mêmes, mais qui vont nous enrichir et qui ensuite vont pouvoir faire partie de notre palette de perceptions du monde et de la vie.
Le plus intéressant avec les intelligences artificielles à mon sens, ce seront les scénarios qu’elles auront écrits toutes seules, car ils seront non humains et donc passionnants pour nous ! Ces scénarios feront évoluer l’écosystème des films, apportant de nouvelles façons de raconter les histoires. Tout comme le clip vidéo a influencé le cinéma, les scénarios écrits par des machines enrichiront notre palette de perceptions du monde.
Je pense que le rôle des scénaristes humains dans le futur sera de s’intéresser aux scénarios écrits par des intelligences artificielles, de s’en inspirer pour créer de nouvelles œuvres. Les machines deviendront des interlocuteurs, bien différents des êtres humains, capables de nous enrichir par leur différence. Il faut donc à mon sens, dès aujourd’hui, explorer ces nouvelles possibilités et s’adapter aux changements qu’elles apporteront.
Outils et techniques pour l’écriture de scénario et la construction de projets de films.
Dans notre monde où des intelligences artificielles créent directement des films à partir des désirs de leurs auteurs exprimés en très peu de mots, dans ce monde où les films de 3h30 dans les salles obscures côtoient les vidéos de 10 secondes sur les réseaux sociaux, lesquels ont besoin de scénarios, pourquoi, et qu’est-ce qu’un scénario ?
Un scénario est-il encore utile à l’époque où chacun a dans sa poche un matériel de création audiovisuelle de niveau quasiment professionnel ? À quoi sert le scénario ?
Pour les auteurs, réalisateurs, producteurs et surtout créateurs de contenu, comme on les nomme le plus souvent aujourd’hui, je crois que le scénario, ses modes de création, d’écriture, ses façons de raconter les histoires, est un outil extrêmement puissant pour nous aider à créer les œuvres audiovisuelles les plus importantes possibles et qui rencontreront au mieux leur public aujourd’hui et demain, dans leurs espaces respectifs de diffusion, que ce soit la salle de cinéma, l’écran de télévision, la plateforme de SVOD, les sites de vidéos communautaires ou les nouveaux médias construits exclusivement autour de la vidéo collaborative comme TikTok.
Ce guide n’a pas la prétention d’être exhaustif, mais il s’appuie sur des expériences concrètes, celles que j’ai vécues et celles que j’ai fait vivre. Depuis plus de 30 ans, j’ai accompagné des milliers de personnes dans la réalisation de films de tous genres, j’ai fondé et dirigé plusieurs festivals de cinéma, j’ai créé de nombreux événements innovants autour de l’audiovisuel, et j’ai également siégé dans des commissions d’aide à la création. Ce que je partage ici est donc subjectif et concret, issu de mon parcours et de mes observations en pratique.