Appréhender le fonctionnement des IA génératives pour mieux les penser
Les intelligences artificielles génératives ne pensent pas mais calculent. Appréhender leur fonctionnement permet d’en penser l’absence de pensée.
Les agents conversationnels (ChatGPT, Gemini, Claude, Copilot, etc), dont la structure repose sur des intelligences artificielles (IA) génératives, bousculent la sphère éducative et suscitent un mélange de fascination et d’inquiétude. Outre les questions relatives à l’évolution des modalités d’enseignement que ces nouveaux outils entraînent pour les enseignant·e·s de philosophie, le fait qu’on puisse interagir avec en langage naturel entraîne fréquemment, bien qu’à des degrés divers, un anthropomorphisme informatique, en particulier avec l’effet Eliza, entendu comme tendance à attribuer des pensées et des intentions à une machine dans le cadre de conversations.
Face à la fréquence des multiples projections qui s’opèrent en raison du fonctionnement méconnu de ces agents conversationnels, pour penser et démystifier ces nouvelles technologies, il faut parvenir à comprendre qu’elles ne « pensent » pas, mais qu’elles ne font que calculer. Le problème corps-esprit se pose pour un organisme vivant : alors que l’humain fait l’expérience subjective de l’hétérogénéité mystérieuse du complexe corps-esprit, les grands modèles de langage fonctionnent exclusivement dans l’élément homogène des mathématiques. De même que l’activation des touches « 2 », « + », « 2 » et « = » sur une calculatrice entraîne par l’activation d’un circuit électronique la coloration de cristaux liquides à laquelle seul un humain accorde la signification « 4 », de même, ces nouvelles technologies ne font qu’opérer des manipulations de signes qui ne renvoient à aucun référent externe et sans que leur signification soit subjectivement éprouvée. Autrement dit, pour une personne humaine un signe est une entité liant une forme matérielle (le signifiant) et une représentation mentale (le signifié), mais pour une machine un signe prend la forme uniquement matérielle d’un vecteur (une suite de nombres, ici plusieurs milliers, par exemple : {7,3 ; 0,5 ; 15,6 ; … ; 1,2 }) associé à une étiquette (une adresse numérique) qui permet au programme de l’appeler : l’étiquette d’appel tient le rôle du signifiant et tous les nombres que le vecteur associé comporte tiennent le rôle du signifié. Il n’y a donc dans la machine aucun référent externe, aucune épreuve consciente de la signification d’un mot.
Le problème est que face aux résultats souvent impressionnants qu’offrent ces agents conversationnels, en raison de l’incompréhension de leur fonctionnement, peut s’immiscer l’idée selon laquelle nous sommes en présence d’une pensée. Il y aurait une expérience consciente vécue par la machine, une signification éprouvée phénoménalement, une intentionnalité. Pour démystifier cette illusion, il s’agira donc dans cette courte analyse, de proposer une première approche de la mécanique interne générale de ces outils.
I. La production d’un grand modèle de langage
Jusqu’à récemment, les tâches demandées à des ordinateurs nécessitaient leur formalisation complète dans un langage informatique : il fallait savoir exactement ce qu’on voulait faire pour que la machine l’accomplisse. C’était en somme un fonctionnement déductif dans lequel l’humain pensait le code comme loi universelle pouvant ensuite s’appliquer déductivement à des jeux de données particuliers. La nouveauté principale est que les grands modèles de langage ont une phase d’apprentissage inductif au cours de laquelle ils sont amenés à modéliser statistiquement la langue naturelle. Ainsi, ce qui est codé par l’humain, ce n’est pas la loi d’action, mais c’est la manière dont la machine est entraînée pour produire d’elle-même à partir de milliards d’exemples ce qui lui servira ensuite de loi d’action, d’immenses matrices de paramètres, pour réaliser des inférences répondant aux requêtes formulées.
La fabrication d’un agent conversationnel se déroule en trois temps majeurs.
I.1. La collecte des données
Il s’agit tout d’abord de constituer une immense bibliothèque numérique. Pour cela l’organisme qui produit le grand modèle de langage (aussi appelé LLM, Large Language Model) aspire une partie d’internet, des livres, des encyclopédies, etc. L’objectif est ici de capturer toutes les façons possibles dont les humains s’expriment, la matière brute qui va servir d’exemple pour l’apprentissage du modèle.
I.2. Le pré-entraînement du modèle
Le modèle est alors amené à s’entraîner sur cet immense recueil d’exemples avec un jeu simple : prédire le jeton (unité de texte que le modèle traite) suivant. Dans la suite de cette analyse nous ferons comme si un jeton correspondait à un mot entier, mais dans les faits, un jeton correspond plutôt à une longueur de l’ordre de la syllabe. Concrètement, l’algorithme présente au modèle une phrase collectée dont la fin est masquée, et en se fondant sur son paramétrage actuel, le modèle détermine ce qui doit statistiquement être le jeton suivant. S’il se trompe, cela donne lieu à une correction automatique des matrices de paramètres pour réduire l’écart mathématique entre la réponse actuelle et la réponse attendue. S’il ne se trompe pas, cela donne lieu à un ajustement des matrices de paramètres pour renforcer ce type de réponse. Cet exercice est répété un nombre astronomique de fois si bien qu’au bout d’un moment l’écart entre la réponse du modèle et la réponse attendue devient de plus en plus faible pour un nombre de plus en plus grand d’exemples. Il n’y a cependant ici nulle pensée, le modèle ne fait qu’ajuster ses matrices de paramètres conformément au code réalisé en amont. S’il intègre progressivement la structure du langage et de ses usages, ce n’est que comme distribution de probabilité.
I.3. L’affinage du modèle
À ce stade, le modèle peut compléter des phrases mais il n’est pas encore un assistant fonctionnel. Grâce à l’apprentissage par renforcement, le modèle va peu à peu intégrer dans son paramétrage l’évaluation humaine de ses réponses. Ici, il ne s’agit plus de vérifier si la proposition du modèle correspond précisément à la distribution statistique du langage (pré-apprentissage), mais de déterminer si ce qui est proposé est jugé correspondre à l’attente des personnes qui évaluent les réponses. Cela va permettre de prendre en compte des préférences humaines qualitatives – notamment la politesse, l’utilité – dans le paramétrage quantitatif du modèle.
C’est aussi au cours de la phase d’affinage que l’entreprise peut imposer au fonctionnement du modèle un certain nombre de contrôles supplémentaires, qui favorisent certains types de réponses plutôt que d’autres.
Le résultat de tout ce processus est la production d’un grand modèle de langage simulant un agent conversationnel capable de prédire statistiquement la suite d’une séquence de mots d’une manière tout à la fois conforme à la distribution statistique du langage et aux attentes des personnes qui l’utiliseront.
II. L’usage de l’IA générative
Malgré le début d’appréhension du mode de production de tels agents conversationnels, se pose la question de la manière dont est générée une inférence. Prenons pour cela l’exemple filé d’une requête portant sur l’histoire de la philosophie et contenant le mot « Critique » : « En quelle année Kant a-t-il écrit la première Critique ? »
II.1 La segmentation en jeton (tokenisation)
Puisque le modèle ne sait pas lire, puisqu’il ne pense pas, pour qu’il puisse traiter la question posée, il faut que soit opérée une conversion de la charge sémantique d’un mot qu’un sujet peut qualitativement éprouver comme signifiée, vers sa traduction quantitative, mathématiquement manipulable comme objet. Pour cela, la requête est d’abord segmentée en jetons. Puis, le modèle vectorise le jeton en le considérant comme une étiquette, c’est-à-dire qu’il assigne à chaque jeton le vecteur spécifique qui lui correspond, lequel a été obtenu au cours de la phase de production du grand modèle de langage. En effet, au terme de la production du modèle, au terme « Critique » correspond un vecteur qui intègre dans ses milliers de dimensions tout ce que ce mot comporte d’utile pour que le jeton suivant puisse être prédit. Ce vecteur est donc censé capturer la totalité des significations potentielles d’un jeton donné au moyen d’une suite de nombres, laquelle se traduit par son positionnement par rapport à tous les autres jetons dans un espace sémantique relationnel. Concrètement, de la même manière qu’au vecteur géométrique {1,5 ; 2,3} correspond un point positionnable dans un espace à deux dimensions X et Y, à chaque jeton correspond donc une position dans un espace qui contient plusieurs milliers de dimensions. Il n’est donc pas représentable en trois dimensions, mais il reste possible de faire des calculs avec.
Puisque cette opération de vectorisation (assignation du jeton au vecteur correspondant issu de l’apprentissage) est réalisée pour tous les jetons de la phrase, elle aboutit à la création d’une matrice de grande dimension, un grand tableau de nombres comme sur un logiciel de tableur, dont chaque colonne est assignée à un jeton, et dont toutes les lignes (des milliers) correspondent au vecteur de chaque jeton.
De cette manière, par l’opération de segmentation, les signes qui composent la requête – et l’hétérogène qu’ils comportent structurellement – sont ainsi chacun traduits sur un plan mathématique homogène en une grande matrice sur laquelle vont pouvoir être menées des opérations afin de prédire la réponse à proposer.
II.2. Le transformer
En entrant dans le transformer, au mot « Critique » est assigné son jeton, dont le vecteur est porteur de sa polysémie. De la même manière qu’une entrée de dictionnaire comprend plusieurs significations et rend notamment compte des fonctions du mot, le vecteur du jeton rassemble toutes ces informations. Il est donc structurellement ambigu. Le problème est que dans un contexte donné – celui de la requête formulée – tous les sens du mot « Critique » (l’examen et l’évaluation, le reproche, l’examen des conditions de possibilités et des limites, le métier, une œuvre philosophique) ne sont pas pertinents. Il faut résoudre cette ambiguïté et ne conserver du mot que le ou les sens précis qui sont susceptibles d’être pertinents dans cette situation pour prédire une suite de caractères susceptible d’être considérée par l’utilisateur comme une réponse satisfaisante.
II.2.A. Le mécanisme d’attention
C’est par le mécanisme d’attention permettant de prendre en compte le contexte précis dans lequel le mot est employé que l’ambiguïté va progressivement être levée. On va ici expliquer de manière simpliste mais compréhensible le fonctionnement du mécanisme d’attention. Le vecteur correspondant à chaque jeton de la requête va être multiplié par trois matrices différentes paramétrées durant la phase de production du modèle. De ces multiplications résulteront ainsi trois nouveaux vecteurs associés à chaque jeton :
Un vecteur valeur qui contient les informations que le jeton est susceptible de partager avec d’autres jetons.
Un vecteur requête qui va chercher à reconnaître les jetons susceptibles de partager des informations.
Un vecteur clef qui permet d’indiquer aux autres jetons s’il peut répondre à certaines de leurs requêtes.
Ainsi, le mot « Critique » formule une requête à tous les jetons de la requête. Plusieurs jetons, en particulier « Kant », « écrit », « raison » et « pure », ont des clefs qui correspondent à cette requête. Puisque ces jetons répondent positivement à la requête de « Critique », ce dernier jeton va capter une partie des informations contenues dans leur vecteur valeur. Ainsi, au fur et à mesure des itérations du mécanisme d’attention, les coordonnées du vecteur du jeton « Critique » s’ajustent progressivement pour se rapprocher de sa signification potentielle « livre », au détriment des autres significations (la question posée concerne en effet la date d’écriture). L’ambiguïté de chaque jeton est ainsi progressivement levée et chaque jeton transmet aux suivants toutes les informations pertinentes pour que le dernier puisse enfin être chargé de la totalité de la signification précise de la requête.
II.2.B. Le perceptron multicouche
Le mécanisme d’attention désambiguïse progressivement les jetons en leur permettant de s’enrichir du contexte de la requête. Mais par alternance, chaque jeton passe dans un perceptron multicouche, une autre structure mathématique, dont le cœur est une immense matrice contenant de très nombreuses informations utiles pour prédire ce qui vient après une suite de mots en général et non pas cette requête en particulier. La matrice encode ainsi un ensemble de données – dont l’hypothèse de recherche actuelle suggère qu’elles sont principalement d’ordre factuel – pouvant être utiles à mobiliser dans une très grande diversité de requêtes. Chaque jeton, qui a été enrichi du contenu pertinent et approprié des autres jetons présents dans la requête, s’enrichit cette fois d’informations supplémentaires qui ont été apprises durant la phase de production du modèle. Ainsi, le jeton qui correspond au mot « Critique », déjà désambiguïsé et enrichi du contexte de la requête qui interroge sur l’année d’écriture du livre, va ici pouvoir se transformer pour intégrer les informations importantes afin de prédire la suite de la réponse, en particulier les années « 1781 » et « 1787 ».
II.3 La prédiction de la réponse
Au terme du passage répété de la requête par le mécanisme d’attention et par le perceptron multicouche, la requête se trouve normalement suffisamment désambiguïsée (mécanisme d’attention) et enrichie d’informations pertinentes (perceptron multicouche) pour que le mot suivant puisse être prédit. Ainsi, lorsque le modèle génère dans sa réponse le mot suivant, ce n’est pas au terme de l’épreuve subjective d’une réflexion, mais d’un calcul mathématique qui aboutit à la sélection automatique d’un jeton dont la fonction est qu’un humain le reconnaisse comme sémantiquement opportun pour donner suite à la requête formulée.
Mais une fois le jeton suivant prédit, le processus de passage par le mécanisme d’attention et le perceptron multicouche recommence une itération en prenant pour fondement la requête initiale à laquelle le jeton prédit est adjoint, le tout dans le but de prédire le jeton qui suivra celui initialement prédit, et ainsi de suite jusqu’à ce que les informations opportunes soient mentionnées. Ainsi, relativement à la requête initiale « En quelle année Kant a-t-il écrit la première Critique ? », on peut supposer que la prédiction du modèle fera mention non seulement de l’année 1781, mais aussi de celle de la seconde édition, 1787. La prédiction recommence ainsi jusqu’à épuisement de la restitution des informations dont la phase d’apprentissage aura permis d’établir la pertinence dans ce contexte donné.
Ainsi, bien que simpliste dans sa restitution du fonctionnement des intelligences artificielles génératives basées sur des grands modèles de langage, cette analyse doit cependant faire apparaître que contrairement à l’humain, ces intelligences artificielles ne possèdent ni intention, ni conscience, ni agentivité, ni rapport à la vérité ou à la signification, qu’en somme elles ne pensent pas mais calculent. Comprendre que leur fonctionnement se limite à l’espace homogène des mathématiques est utile pour ne pas fantasmer la présence d’une pensée dans la machine.
Pour aller plus loin sur le fonctionnement mathématique des IA génératives, on peut tout d’abord consulter ici cette vidéo d’introduction au fonctionnement des grands modèles de langage (7min57), puis pour approfondir consulter ici toute la série de vidéos sur le fonctionnement des réseaux neuronaux artificiels, en particulier les chapitres 3 et 4 (sur l’apprentissage par rétropropagation), 6 (introduction aux transformers), 7 (sur le mécanisme d’attention du transformer) et 8 (sur le perceptron multicouche du transformer).
Article rédigé en janvier 2026