La présence vocale

19 mai 2026. Publié par Benoît Labourdette.
  9 min
 |  Télécharger en PDF

Téléphoner, laisser un message vocal, faire une visio, écouter un podcast, suivre une diffusion en direct, parler avec une intelligence artificielle vocale : six manières d’être présent par la voix à distance. Je propose une typologie de ces régimes en distinguant, dans chacun, l’usage quotidien et la création artistique.

Une expérience que la phénoménologie classique n’a pas vraiment pensée

Téléphoner à quelqu’un est une expérience que la plupart des humains vivants aujourd’hui ont faite des milliers de fois, et pourtant peu de textes philosophiques rendent compte de ce qui s’y passe. La phénoménologie classique a pensé la perception, la rencontre incarnée, le face-à-face, et elle n’a pas vraiment pensé l’écoute désincarnée. Lévinas a centré l’éthique sur le visage de l’autre, Merleau-Ponty a pensé le corps perçu et perceveur ; la voix entendue à distance, sans le corps qui l’émet, reste un objet philosophique peu travaillé.

Ce manque me semble gênant depuis que nos vies se déroulent en grande partie à travers des dispositifs vocaux à distance. Téléphone, message vocal, visioconférence, podcast, diffusion en direct, conversation avec une intelligence artificielle vocale, ces formes coexistent, se combinent, et structurent une part importante de ce que nous appelons aujourd’hui être en lien. Elles ne sont pas équivalentes, chacune produit une qualité de présence particulière qui mérite d’être analysée pour elle-même.

Téléphoner sans se voir

Au téléphone, deux personnes parlent en même temps sans se voir. Le canal de communication est une seule bande étroite, la voix, et tout le reste, expressions, postures, regards, environnement, doit être déduit, imaginé, ou explicitement raconté.

Cette restriction produit, paradoxalement, une qualité d’attention particulière. Quand on ne peut pas se distraire avec le visage de l’autre, on entend mieux sa voix, on perçoit les modulations, les hésitations, les souffles, les bruits qui l’entourent. On construit une présence auditive qui peut être plus précise, dans certaines dimensions, que la présence en face à face. Quelqu’un qui marche, qui s’assoit, qui boit, qui pleure sans le dire, signale par la voix et par les bruits environnants des informations qu’on n’aurait peut-être pas captées autrement.

Cette modalité produit aussi une asymétrie temporelle. La voix nue, sans image, soutient mal les longues pauses. Un silence au téléphone est plus chargé qu’un silence en face à face, parce qu’on ne sait pas si l’autre réfléchit, est gêné, est parti, ou a eu un problème. Le téléphone exige donc une parole plus continue, ou alors une explicitation des silences (« je réfléchis », « j’écoute », « pardon, j’étais distrait »), et cette nécessité d’explicitation produit, à son tour, une parole plus consciente d’elle-même qu’en face à face.

Le téléphone est donc un dispositif qui creuse l’écoute et qui exige la conscience de la voix comme acte. Il peut produire une intimité qui dépasse celle de la rencontre incarnée, à condition que les deux personnes acceptent ce régime particulier.

Enregistrer un message que l’on peut reprendre avant de l’envoyer

Le message vocal a été démocratisé par les applications de messagerie au début des années 2010. Il combine la qualité expressive de la voix avec l’asynchronicité du message écrit, on enregistre, l’autre écoute quand il veut.

Ce régime produit une posture d’élocution particulière. La personne qui enregistre s’adresse à quelqu’un qui n’est pas là et qui écoutera à un moment qu’elle ne maîtrise pas. Cette absence du destinataire au moment de l’énonciation modifie la parole, qui devient plus monologique, plus construite, plus composée. On peut s’écouter avant d’envoyer, recommencer si on ne se trouve pas juste, supprimer et reformuler. La parole vocale asynchrone est une parole qui peut être éditée comme un texte, tout en gardant la chair du timbre.

Ce dispositif sert bien à dire des choses qui demandent du temps. Une excuse difficile, une déclaration, une remarque délicate, peuvent passer par message vocal mieux que par téléphone, parce que celui ou celle qui reçoit peut écouter, réécouter, et prendre le temps de répondre. La parole gagne en précision sans perdre en chair, mais elle perd l’ajustement immédiat à la réaction de l’autre.

Quand l’image dégrade la qualité de l’écoute

La visioconférence ajoute l’image au son et se présente, en général, comme une amélioration du téléphone. On voit en plus d’entendre, donc on serait mieux en lien. Cette présentation est à mon sens trompeuse.

L’image en visio est cadrée, partielle, souvent à mi-corps, parfois à hauteur de visage. Elle ne donne pas accès à la corporéité complète de l’autre, mais à une représentation plate, derrière une caméra dont on ne contrôle ni la position ni la lumière. Le regard ne peut pas se croiser vraiment, parce que regarder l’autre dans les yeux suppose de regarder la caméra, et donc de ne plus voir ses yeux. Cette asymétrie structurale des regards produit, à terme, une fatigue particulière, que la psychologie a nommée fatigue Zoom après le confinement de 2020.

La visio cumule une présence visuelle dégradée et une présence sonore qui n’est pas pleine non plus, parce que la conscience de l’image distrait de la voix. On regarde en partie l’autre, en partie soi-même dans le petit cadre, en partie l’environnement visible derrière l’autre, et l’attention se fragmente. On est paradoxalement moins présent à la voix qu’on ne le serait au téléphone.

Cette observation ne disqualifie pas l’usage de la visio, qui est utile dans beaucoup de contextes professionnels et qui maintient des liens à distance ; elle invite seulement à ne pas la considérer comme une simple amélioration du téléphone. C’est un autre régime, qui produit une autre qualité de présence, qu’il vaut mieux analyser pour ce qu’elle est plutôt que de la comparer à une présence incarnée dont elle ne tient pas la place.

Une voix qui entre dans l’oreille comme celle d’un proche

Le podcast, qui a connu une expansion massive dans les années 2010 et 2020, propose un régime encore différent. Une voix qui parle, sans interlocuteur présent, est écoutée par un nombre variable de personnes à des moments différents. Le rapport entre voix et auditeur est radicalement asymétrique.

Cette asymétrie produit pourtant une intimité particulière. L’auditeur écoute le podcast dans des contextes intimes, les écouteurs aux oreilles, dans le métro, en faisant la cuisine, en marchant. La voix entre dans son oreille comme s’y trouvait celle d’une personne très proche. Le podcasteur, de son côté, parle souvent à une seule personne imaginée, pas à une foule, et cette adresse à une-seule-personne, multipliée par des milliers d’auditeurs en même temps, produit l’illusion d’un lien direct entre la voix et chacun.

Cette illusion a des effets puissants. Elle permet à des podcasteurs de construire, avec leurs auditeurs réguliers, un sentiment de proximité qui dépasse celui de la lecture d’un livre, parce que la voix porte la chair que l’écrit ne porte pas. Elle autorise aussi des dérives, quand cette intimité simulée est exploitée pour vendre, pour endoctriner, ou pour construire des communautés captives autour d’une voix charismatique. Le podcast peut être, à cet endroit, un dispositif politique comparable à ce que la radio a été au vingtième siècle, mais individualisé et déterritorialisé.

Une parole vocale qui lit en temps réel ce qu’on lui répond par écrit

Plus récente encore est la diffusion en direct, sur des plateformes comme Twitch, Instagram Live ou TikTok Live, où une personne parle en vidéo ou en audio devant un public qui peut réagir par des messages écrits. La conversation devient radicalement asymétrique, d’un côté une voix incarnée, de l’autre des fragments de texte qui défilent.

Ce dispositif a quelque chose d’inédit dans l’histoire de la communication humaine. Pour la première fois, une voix qui parle peut lire en temps réel ce que ses auditeurs lui répondent et ajuster son discours en conséquence. La parole vocale devient interactive, mais l’interaction se fait sur deux registres incommensurables, la voix d’un côté, l’écrit de l’autre. Le diffuseur peut répondre à un commentaire en parlant, ou ignorer la masse des commentaires en se concentrant sur quelques-uns.

Cette asymétrie produit un régime de présence très particulier. Les auditeurs sont à la fois individués, chacun peut écrire et être lu, et anonymes, la masse des messages efface chacun. Le diffuseur est à la fois proche, sa voix arrive à chacun dans son oreille, et distant, il ne connaît pas vraiment ceux qui l’écoutent. Une intimité publique se construit, qui n’a pas vraiment d’équivalent dans les formes de communication antérieures.

Ce dispositif a généré, en quelques années, une économie de l’attention dont les ressorts sont encore mal compris. Il a aussi produit des subjectivités nouvelles. Celui ou celle qui diffuse en direct plusieurs heures par jour devant un public qu’il ou elle ne voit pas, élabore une présence vocale qui demande des compétences spécifiques, encore peu théorisées.

Converser avec une voix qui n’a pas de sujet derrière elle

Depuis 2023-2024, des intelligences artificielles capables de tenir une conversation vocale en temps réel sont accessibles à un large public. ChatGPT en mode vocal, Claude vocal, Gemini Live et leurs équivalents ouvrent un régime inédit dans l’histoire humaine, qui est de converser à voix haute avec une entité qui n’est pas une personne, qui peut moduler son ton, hésiter, rire, marquer des silences, mais qui ne possède aucune subjectivité.

Ce régime mériterait une analyse propre, que je ne mène pas entièrement ici. Je note deux faits saillants. Premièrement, l’expérience de converser vocalement avec une IA est très différente de celle de l’écrire ; la voix produit, immédiatement, l’illusion d’une présence subjective qui résiste à la connaissance que l’on a de l’absence de cette subjectivité. Deuxièmement, cette illusion est utile pour certains usages, dangereuse pour d’autres, et son cadrage éthique reste largement à construire.

Le concept de présence vocale trouve dans ce régime sa formulation la plus radicale. La voix produit une présence, indépendamment de la présence réelle de quelqu’un derrière elle. Cette dissociation entre voix et sujet, qui n’existait jusqu’à très récemment que dans des dispositifs marginaux, devient une expérience quotidienne pour des centaines de millions de personnes en quelques années.

L’intention artistique dans chacun de ces régimes

Les six régimes que je viens de décrire sont d’abord des usages ordinaires, téléphoner à un parent, laisser un message à un collègue, faire une visio professionnelle, écouter un podcast pendant le métro, regarder un diffuseur en direct le soir, demander à une IA vocale ce qu’on pourrait cuisiner. Ces usages quotidiens engagent la voix pour faire lien, pour transmettre une information ou pour organiser une action.

Mais chacun de ces régimes peut être habité par une intention artistique, qui en change la portée, et les enjeux ne sont pas les mêmes selon qu’on est dans un usage quotidien ou dans une création.

Au téléphone, l’usage quotidien domine très largement. La voix téléphonique a pourtant été aussi un médium de création, depuis les performances par téléphone des années 1970 jusqu’aux œuvres contemporaines de Sophie Calle, où le dispositif d’appel devient lui-même la matière de l’œuvre. La conversation téléphonique enregistrée, montée et diffusée comme pièce sonore est une forme à part entière.

Pour le message vocal, le passage à l’artistique est plus rare. Le format est encore récent, et il n’a pas suscité de tradition de création comparable à celle du téléphone. Quelques performances l’utilisent comme matériau, sans qu’un genre se soit constitué.

La visioconférence a, en revanche, connu pendant le confinement de 2020 une floraison de propositions artistiques, pièces de théâtre adaptées à Zoom, performances multi-écrans, expériences chorégraphiques à distance. Cette période brève a montré que le dispositif visio pouvait porter une création, à condition d’assumer ses contraintes propres plutôt que d’essayer d’imiter la scène incarnée.

Le podcast est probablement le régime où la distinction entre quotidien et artistique est la plus visible et la plus travaillée. D’un côté, des podcasts d’information, de conversation, de chronique, qui prolongent les formats radiophoniques classiques dans un usage quotidien. De l’autre, une tradition de création sonore, particulièrement vivante en France, autour de structures comme ARTE Radio, France Culture, ou des éditeurs comme Binge, qui produit des fictions sonores, des documentaires de création, des essais audio. Cette tradition s’inscrit dans la lignée des grands documentaires radio des années 1960 à 2000, ceux de Yann Paranthoën, de René Farabet, de l’Atelier de création radiophonique, et trouve dans le format podcast des conditions de diffusion nouvelles.

La diffusion en direct sur Twitch ou Instagram Live sert massivement à l’usage quotidien (chroniqueurs, joueurs, animateurs qui parlent de leur journée), mais elle accueille aussi des propositions artistiques, concerts en direct, performances qui jouent du dispositif, lectures publiques. Les deux usages cohabitent dans les mêmes outils.

L’IA vocale n’a pas encore suscité de tradition artistique consolidée. Quelques performances ponctuelles utilisent la conversation avec une IA comme matière d’une pièce, mais nous sommes dans les premiers temps de ces dispositifs. Il est probable que des formes émergent dans les prochaines années, et que des artistes prennent au sérieux la voix synthétique comme matériau, comme l’ont fait avec la voix enregistrée les pionniers de la musique électroacoustique.

Cette distinction entre usage quotidien et création artistique n’est pas une hiérarchie. Un coup de téléphone à une personne aimée peut produire plus d’intensité qu’une performance sonore élaborée. Mais l’intention artistique change ce qui se joue dans le dispositif. Elle ouvre une attention à la forme, au choix des silences, à la composition du sens, qui transforme l’usage en proposition partagée. Les deux régimes se nourrissent l’un l’autre. Les artistes qui travaillent un dispositif vocal rendent perceptible ce qui se joue dans son usage ordinaire, et les pratiques quotidiennes fournissent aux artistes la matière à partir de laquelle ils construisent leurs œuvres.

Pourquoi cette liste de six régimes n’est pas fermée

Ces six régimes ne forment pas une liste exhaustive. On pourrait y ajouter la radio classique, l’enregistrement audio sur cassettes ou CD, les conversations en réalité virtuelle qui commencent à se développer. La typologie reste ouverte, elle a vocation à structurer la pensée, pas à enfermer l’expérience.

Ce qu’elle permet de voir, c’est que la présence vocale n’est pas une chose unique, mais une famille de phénomènes qui partagent quelques propriétés communes et se distinguent par d’autres. Toutes ces formes reposent sur la voix comme vecteur principal de la présence, et toutes opèrent à distance physique. Mais elles diffèrent selon plusieurs lignes que la typologie a fait apparaître : leur synchronicité ou non, le fait que la parole y soit éphémère ou enregistrée, le fait qu’elle s’adresse à une personne ou à un public, et la possibilité ou non d’un ajustement en cours d’échange.

Je propose donc le concept de régime de présence vocale pour désigner chacune de ces configurations particulières où la voix porte une présence à distance, dans des conditions techniques et sociales spécifiques. Chaque régime produit une qualité d’écoute et un usage de la parole qui lui sont propres. Penser ces régimes pour eux-mêmes, c’est se donner les moyens d’usages plus conscients, et de critiques plus précises quand certains régimes produisent des effets indésirables.

Choisir le régime juste comme acte de soin

Cette typologie a une portée pratique immédiate.

Elle invite d’abord à ne pas confondre les régimes. Une difficulté de couple ne se résout pas dans le même registre selon qu’on en parle au téléphone, en visio ou en face à face. Une réunion professionnelle ne produit pas les mêmes décisions selon le dispositif. Un message vocal long n’a pas le même effet qu’un texto. Choisir le régime juste fait partie du soin que l’on porte à la relation.

Elle invite ensuite à reconnaître que la culture occidentale moderne a longtemps disqualifié la voix au profit de l’écrit. Platon déjà, dans le Phèdre, faisait dire à Socrate que l’écrit était une menace pour la mémoire et la pensée vive. La pensée moderne a largement renversé cette hiérarchie, l’écrit a pris le pas comme support de l’autorité, du droit, de la connaissance, et la voix a été reléguée au registre du familier, du fugace, du moins sérieux. Cette hiérarchie n’a plus de sens dans un monde où la voix circule par les réseaux comme l’écrit, où elle peut être enregistrée, transcrite, archivée, retraitée.

Elle invite enfin à penser politiquement les dispositifs qui structurent nos régimes vocaux. Qui possède les plateformes de podcast et de diffusion en direct ? Quelles voix y ont accès ? Quelles règles d’algorithme amplifient quels discours ? Qui contrôle les intelligences artificielles vocales que des millions de personnes vont consulter quotidiennement, et selon quels critères ? Ces questions ne sont pas techniques, ce sont des questions politiques qui décideront en partie de ce que sera la pensée commune des prochaines décennies.

Reconnaître ces différences entre les régimes de présence vocale, et pratiquer chacun pour ce qu’il est, fait désormais partie du travail nécessaire pour critiquer ceux qui dégradent les liens humains, et pour habiter les autres avec discernement.

La présence comme ancrage fondamental de notre être au monde

La présence constitue cet ancrage fondamental qui nous relie à nous-mêmes et au monde, cette qualité d’attention qui transforme l’expérience vécue en conscience habitée. Être présent, c’est résister aux forces centrifuges qui nous dispersent - l’imminence qui nous projette dans l’urgence, le déni qui nous coupe du réel, les injonctions sociales qui nous éloignent de notre intériorité. La présence n’est ni repli sur soi ni fusion avec l’extérieur, mais cette tension créatrice entre ancrage intérieur et ouverture au monde. Elle se cultive dans l’adaptation paradoxale qui exige de s’absenter parfois à soi-même pour mieux se retrouver, dans la géographie complexe de nos états intérieurs qui varient selon les contextes, dans la résonance avec les ondes qui nous traversent. Face au drame qui fracture, à la soumission qui vide l’existence, au grand âge qui isole, la présence devient résistance et reconstruction. Elle est ce qui permet de transformer l’imprévu en opportunité, de maintenir son intégrité dans la tourmente, de créer du lien là où règne la solitude. Cultiver sa présence, c’est finalement s’offrir le présent du temps présent, source de toute transformation authentique.


QR Code d'accès à cette page
qrcode:https://www.benoitlabourdette.com/les-ressources/propositions-philosophiques/philosophie-de-la-presence/la-presence-vocale