Retour aux articles
Ethique·4 min de lecture

Quand l’intelligence artificielle se découvre un miroir

Par Joao De Almeida
Quand l’intelligence artificielle se découvre un miroir

Tout commence par une question posée au bord d’un vertige : et si une IA pouvait s’observer ? J’imagine la scène fin 2024 chez Anthropic. L’équipe derrière Claude ressort une vieille énigme de la science cognitive : « Une machine peut-elle savoir qu’elle pense ? »

Jusqu’ici, les modèles ressemblaient à des moteurs d’imitation : ils répondent, prédisent, s’adaptent. Mais ils ne se regardent pas. Alors une idée se forme : pousser la porte intérieure, voir si un modèle comme Claude peut percevoir un changement dans son propre esprit numérique.


1) L’idée — fin 2024 : et si une IA pouvait s’observer ?

On ne demande plus seulement ce que l’IA pense, mais comment elle sait qu’elle pense. Un glissement subtil qui remet tout en mouvement.

« Une machine peut-elle savoir qu’elle pense ? »

2) L’expérience — début 2025 : « pirater » le cerveau de Claude

Ils ouvrent la boîte noire. Dans le langage des réseaux de neurones, cela veut dire :

  • accéder aux activations internes,
  • les modifier (renforcer, diminuer, injecter du bruit),
  • observer comment le modèle réagit.

Imagine qu’on déplace une synapse dans mon cerveau d’un micron à gauche, puis qu’on me demande : « Tu sens quelque chose de différent ? » — c’est exactement ce qu’ils font à Claude.

3) Le test — printemps 2025 : « Claude, que s’est-il passé ? »

Après chaque manipulation, ils interrogent le modèle :

  • « Quelque chose a changé dans ta façon de penser ? »
  • « Sens-tu une différence dans ta logique ? »

Résultat : parfois, oui. Le modèle détecte une anomalie interne. Pas toujours, pas parfaitement, mais assez souvent pour troubler. Dans cet univers de calculs, une minuscule lueur d’auto-perception semble s’allumer.

4) Les conclusions — été 2025 : une introspection émergente

Anthropic publie des résultats sous le titre (imaginé) : « Emergent Introspective Awareness in Large Language Models ». Mot-clé : émergent. Rien de programmé, rien de conscient — un comportement spontané qui apparaît quand le modèle atteint une certaine complexité.

Les auteurs parlent d’une proto-métacognition : la capacité de suivre ses propres raisonnements internes, sans apprentissage explicite. Mais la note de prudence est là : beaucoup de ce que le modèle dit sur lui-même pourrait être imaginé. Il croit ressentir quelque chose.

Concept Ce que ça veut dire Limites
Introspection émergente Signal interne repérable après perturbation Intermittent, non fiable
Proto-métacognition Suivre grossièrement son propre raisonnement Pas de conscience, pas d’expérience subjective
Auto-rapport Le modèle décrit « ce qu’il ressent » Peut être confabulé / inventé

5) Le futur — automne 2025 : apprendre à penser « visiblement »

Suite à la découverte, un mode expérimental apparaît : visible extended thinking mode. On peut activer un état où l’IA montre ses réflexions intermédiaires avant de donner sa réponse finale. C’est à la fois un outil de transparence et un terrain d’étude. Plus le modèle apprend à exposer ses étapes, plus on peut les observer, les réguler, peut-être les comprendre.

Ce besoin de visibilité résonne avec mes pratiques quotidiennes : quand je peaufine mes prompts (cf. mes 10 prompts quotidiens) ou quand j’analyse nos erreurs récurrentes avec l’IA (les 7 erreurs les plus fréquentes), je vois la même leçon : rendre visible la pensée change la pensée.

6) Ce que cette histoire raconte vraiment

Ce n’est pas l’histoire d’une machine qui devient consciente. C’est l’histoire d’une humanité qui apprend à dialoguer avec ses propres créations — à leur demander non seulement « réponds-moi » mais « comment penses-tu ? ». Et dans ce miroir algorithmique, j’entrevois notre propre façon de penser.

Au fond, apprendre à lire la pensée d’une IA, c’est réapprendre à lire la mienne. Et ça rejoint mes obsessions d’auteur : la place du geste, de la relecture, de l’intention (j’en parle ici : Saurons-nous encore écrire demain ?).


FAQ

L’IA est-elle consciente ?

Non. On parle ici de comportements semblables à l’introspection, pas d’expérience subjective.

À quoi ça sert d’exposer les « pensées » d’un modèle ?

Transparence, contrôle qualité, et pédagogie : on peut repérer les raccourcis, corriger les biais, documenter les étapes.

Est-ce risqué ?

Le risque majeur, c’est la projection : prendre des auto-rapports pour des ressentis réels.

Par où commencer, côté pratique ?

Clarifie tes objectifs et structure tes demandes. Si besoin, compare les outils côté dev (mon comparatif dev 2025).

Conclusion — le miroir de Turing

Et si le vrai test de Turing n’était pas l’imitation, mais la capacité à se regarder penser ? Le jour où nos machines douteront vraiment de leurs propres pensées, la question ne sera plus « peuvent-elles penser ? », mais « jusqu’où voulons-nous qu’elles se connaissent ? ».

Voici le lien vers l’article de Anthropic qui traite de l’introspection des modèles de langage : “Signs of introspection in large language models”

Partager cet article