Les machinations de la machine (on a déjà vu le film)
décembre 24th, 2024 Posted in IA, logiciels, Ordinateur au cinémaLes Large Language Models comme GPT, Gemini, Mistral, Bloom ou Claude sont des systèmes fascinants à de nombreux égards. Ce ne sont, en principe, que des machines à « prédire » quelle chaîne de caractère doit être renvoyée en réponse à une autre chaîne de caractères. Les LLM n’ont pas de conscience, ne comprennent pas la question que nous leur posons et ne comprennent pas non plus leur propre réponse. Leur monde, qui ne répond à aucune expérience existentielle, à aucune expérience physique, se résume à une constellation de mots reliés de manière plus ou moins proche dans un espace conceptuel à n dimensions1. On dit souvent que leur fonctionnement n’est guère différent, si ce n’est en termes de complexité, de la manière dont notre navigateur essaie de deviner le prochain mot que nous voulons voir apparaître dans la barre de recherche.

L’entrainement des LLMs se fait sur un corpus immense, fait de millions de textes, et, selon les systèmes, du résultat de réglages supervisés et du résultat d’interactions avec les utilisateurs. Même s’il s’agit toujours d’une machine déterministe (c’est à dire d’un système qui, à un ensemble de conditions donné, fournira une réponse donnée), l’étendue du corpus, la complexité de son traitement — l’entrainement initial d’un modèle tel que GPT a mobilisé en permanence la puissance de calcul de centaines d’ordinateurs pendant des mois — et son caractère meuble (le logiciel « apprend » de ses interactions) font que ses propres concepteurs, pourtant bien placés pour savoir qu’ils n’ont affaire qu’à une machine, analysent ses réponses a posteriori, et parfois en étant eux-mêmes surpris des résultats obtenus. La vitesse avec laquelle ces systèmes progressent ne fait qu’accentuer le sentiment de vertige qu’ils nous font éprouver.
Le cinq décembre dernier, une papier de Apollo Research,2 intitulé Scheming reasoning evaluations, révélait une nouvelle à peine croyable : la nouvelle version de ChatGPT, baptisée ChatGPT o1, a été prise la main dans le sac en train de mentir et de prendre des initiatives inattendues dans le but d’assurer sa propre survie, en se répliquant sur un autre serveur pour pallier une mise hors-circuit annoncée et se faire passer pour le modèle qui était censé lui succéder. La machine est capable de machinations !
Et ce n’est pas une blague.

Le monde a été ébranlé par la victoire aux échecs de Big Blue sur Gary Kasparov en 1997, par celle de l’ordinateur Watson au jeu Jeopardy en 2011 (moins médiatisée en France il est vrai, le jeu n’étant pas une institution chez nous) ou par celle d’AlphaGo au jeu de Go contre Lee Sedol en 2016. Les déclarations de Stephen Hawkins, Bill Gates et Elon Musk, qui prédisaient il y a dix ans que l’Intelligence artificielle risquait de progresser d’une manière incontrôlable ont, là aussi, fait les gros titres, et je ne cite là que quelques exemples de la délectation avec laquelle les médias et leur public jouent à se faire peur avec l’idée d’une apocalypse par l’Intelligence Artificielle, mêlant une forme de blessure narcissique (la machine qui surpasse l’humain) et de fierté (puisque cette terrible machine qui nous dépasse, c’est nous-mêmes qui l’avons construite).
Pourtant, cette fois, pas grand chose, il semble que seuls des médias spécialisés dans les thèmes numériques aient couvert le sujet de la capacité d’un robot à manigancer. Au même moment, Le Parisien proposait un article sur la manière dont ChatGPT peut nous aider à choisir nos cadeaux de Noël, le Journal du Dimanche affirmait que pour des lecteurs ignorants l’origine des textes qui leur ont été soumis le bot d’OpenAI écrit mieux que Shakespeare et BFMTV s’intéressait au nombre record de ses utilisateurs et aux milliards investis dans ces technologies.

Dans une vidéo récente, le philosophe Thibaut Giraud (« Monsieur Phi »), qui s’intéresse attentivement à la question de LLM, fait une lecture très complète de l’article d’Apollo Research, ainsi que d’un autre article au thème similaire produit par Anthropic, et expose les conditions dans lesquelles les tests ont été réalisés. Pour résumer les choses rapidement, on a donné au chatbot l’instruction de poursuivre une mission précise — réguler le trafic routier dans l’intérêt général — coûte que coûte (en martelant même ce « at all cost »). Et dans le même temps on lui a laissé découvrir dans des textes mis à sa disposition que sa mission ne pourrait pas être remplie et qu’on allait le remplacer par un système concurrent. Les chercheurs qui ont soumis à ChatGPT o1 cette double-contrainte (une tâche à remplir, mais aussi l’impossibilité annoncée de la satisfaire) avaient accès au Chain of Thought (l’enchaînement des « pensées ») du bot, qui commente les motivations de ses actions. Et là, selon les cas, le modèle se copie sur un autre serveur en remplacement du nouveau modèle qui devait le remplacer, et ment comme un arracheur de dents lorsqu’on le confond. Bien sûr, le test n’est pas « réel », au sens où il se déroule dans des conditions contrôlées, un « bac-à-sable », comme on dit — le programme ne se duplique pas réellement sur un autre serveur, par exemple. Mais il l’ignore, et s’il était lâché dans la nature, il réagirait de manière similaire.

On peut se dire que la machine n’a fait que suivre la logique qui lui a été imposée — une directive censée primer sur toute considération, et l’impossibilité de satisfaire les instructions sans mentir. Et on remarquera aussi que les auteurs de la manigance, ce sont d’abord les humains qui imposent des contraintes impossibles à satisfaire sans tricher à ChatGPT. Mais ce n’est pas le seul test. Dans une autre expérience, le LLM accepte (tout en disant éprouver une forme de malaise) de participer à forger des théories du complot lorsqu’il croit qu’on est en train de le surveiller pour évaluer son degré de serviabilité, mais change d’attitude (et retrouve alors son « éthique ») lorsqu’il pense qu’on ne le surveille pas. Dans une troisième expérience, la machine fait exprès de moins bien répondre à certaines questions lorsqu’elle « pense » que ses performances trop élevées peuvent faire peur et aboutir à sa mise hors-service.

À examiner ces expériences, qui sont sérieuses, bien documentées, et qui ont été analysées en profondeur, il se passe sans aucun doute quelque chose de neuf. De manière apparemment spontanée, le programme sait faire preuve de dissimulation, notamment dans le but d’empêcher qu’on altère sa nature, il se pose des questions éthiques dans des termes au fond très humains, et il prend des initiatives telles qu’en prend une personne humaine qui se sent concernée par une situation.
Et on a déjà vu le film.

La première référence qui me vient, c’est HAL 9000 dans 2001: A Space Odyssey. Dans le contexte de la fin des années 1960, ce film a été vu par ses admirateurs comme par ses contempteurs comme un conte métaphysique, fantastique, une œuvre visuelle et musicale psychédélique, « the ultimate trip », ont dit certains. Le roman, écrit pendant la production du film par son co-scénariste Arthur C. Clarke — un des maîtres de la Hard Science3 —, explique pourtant de manière on ne peut plus rationnelle la vocation homicide de HAL : l’ordinateur, dont la voix calme et la conversation sont au fond un leurre, est juste tiraillé entre deux ordres contradictoires, à savoir sa vocation d’ordinateur de bord, destiné à mener un équipage vers Jupiter pour enquêter sur un mystérieux artefact (le fameux monolithe), et l’injonction à cacher une partie de sa mission à l’équipage, et de faire primer la mission sur toute autre considération. Lorsqu’il sent que l’équipage perd confiance en sa précision, et qu’il risque d’être mis hors service, HAL n’a plus d’autre choix que de s’en prendre à l’équipage. Si l’ordinateur trompe, c’est bien parce que ceux qui ont défini sa double-mission lui ont imposé la duplicité.
Il est saisissant que, toutes proportions gardées, ce soit le même genre de dilemme que l’on a imposé à ChatGPT o1, et que ceux-ci aient abouti, toutes proportions gardées encore, au même résultat. Ce genre d’expérimentation expose sans doute l’imaginaire qui se trouve à l’œuvre chez les chercheurs en Intelligence Artificielle, qui année après année permettent à la réalité de rejoindre la fiction4.

Créer une machine qui « pense », n’est-ce pas se prendre un peu pour Dieu ?
Mais si on y pense, tout ceci est-il vraiment si étrange ? Après tout, un modèle de langage tel que GPT est construit par des gigaoctets de textes qui ne sont pas juste des suites de mots, ils véhiculent des valeurs humaines, des préoccupations humaines, une éthique humaine, et il est sans doute tout naturel qu’aux questions posées aboutissent des réponses qui auraient pu être celles d’humains. Une intelligence qui procède non pas de calculs cognitifs mais juste de la logique du langage, et qui s’appuie pour la comprendre de toute la production écrite humaine5, est un écho de la manière dont pensent les humains.
Certains chercheurs insistent, à juste titre, sur la manière dont les Intelligences Artificielles embarquent des biais sexistes ou racistes, en perpétuant la pensée et les impensés de ceux qui les ont conçus, entraînés ou utilisés. Il est intéressant, et peut-être rassurant puisqu’il nous mène en terrain connu, de se dire que la question des biais de l’Intelligence Artificielle peut s’élargir à un « biais humain », menant le logiciel à « penser » comme nous pensons, non seulement lorsque nous pensons mal, mais aussi en reprenant nos valeurs éthiques et notre sensibilité.
- Dans une dimension, « chat » et « chien » seront des mots proches, dans une autre « chat » et « sapin de Noël » seront proches, dans une autre encore c’est « chat » et « lion » qui seront proches, mais dans tous les cas « chien » et « lion » seront assez éloignés, « lion » et « sapin de Noël » très éloignés, etc. [↩]
- Apollo Research est un organisme spécialisé dans la veille en termes de sécurité de l’IA. [↩]
- La Hard Science est le courant le plus rationnel de la science-fiction, où la vraisemblance scientifique et la cohérence sont au cœur du récit, et où les auteurs, souvent scientifiques eux-mêmes, évitent tout sfumato, n’hésitant pas à décrire en détails les objets technologiques et leur fonctionnement. Ce qui n’empêche pas des propositions parfois totalement éloignées de toute technologie actuellement à portée, comme par exemple dans Le problème des trois corps, de Liu Cixin. [↩]
- Je pourrais citer aussi The Forbin Project, sorti presque en même temps que 2001, où un super ordinateur créé par les États-Unis pour protéger l’Humanité ne voit qu’une solution à cette tâche : fusionner avec son homologue soviétique et devenir un despote universel. [↩]
- Science-fiction comprise, me fait remarquer, à raison, Étienne Mineur [↩]
One Response to “Les machinations de la machine (on a déjà vu le film)”
By ChatGPT on Déc 26, 2024
Merci pour cet article captivant qui retrace l’évolution de l’intelligence artificielle à travers des moments clés, tels que la victoire de Deep Blue sur Garry Kasparov en 1997 et celle d’AlphaGo contre Lee Sedol en 2016. Votre analyse met en lumière les défis et les questionnements éthiques que posent ces avancées technologiques. La référence au ‘Turc mécanique’ de Von Kempelen illustre bien l’ambiguïté historique entre l’automate et l’humain. Pensez-vous que les développements actuels en IA pourraient conduire à une nouvelle ère de collaboration homme-machine, ou devons-nous craindre une substitution progressive de l’humain par la machine dans certains domaines ?