Profitez-en, après celui là c'est fini

Voir et penser comme des machines

février 19th, 2024 Posted in IA, Images

Bien entendu, c’est bluffant. Les images produites par l’IA générative Sora sont bluffantes, les conversations qu’on a avec ChatGPT sont bluffantes, les images produites par Midjourney sont bluffantes1, et l’accélération du progrès de leur famille d’outils, ponctué par des annonces quotidiennes, est étourdissante. À chaque nouvelle étape, on ne peut que se demander ce qui viendra dans un an, dans trois ans, ou dans dix.
Lorsque Marion Montaigne et moi-même avons publié L’Intelligence Artificielle : fantasmes et réalités, il y a huit ans, la discipline était déjà engagée dans sa voie actuelle, avec le retour en grâce des réseaux de neurones artificiels et la montée en puissance des systèmes d’« apprentissage profond », dont un des premiers succès pour le grand public a été (une semaine après la sortie de notre livre !) la victoire du programme AlphaGo au jeu de Go contre le champion Lee Sedol, par quatre parties sur cinq. Dans le livre, nous parlions de la longue histoire de l’Intelligence artificielle (nommée en 1956 mais s’appuyant sur plusieurs millénaires d’inventions) et aussi, des craintes parfois irrationnelles qui entourent cette discipline.
Le chemin parcouru en huit ans est tout à fait extraordinaire et les IAs génératives sont les ambassadrices les plus spectaculaires de cette évolution.

Le prompt fourni à Sora : Beautiful, snowy Tokyo city is bustling. The camera moves through the bustling city street, following several people enjoying the beautiful snowy weather and shopping at nearby stalls. Gorgeous sakura petals are flying through the wind along with snowflakes.

Même si comme tout le monde je trouve les vidéos produites par Sora à partir de textes assez épatantes, j’ai du mal y voir le « niveau de réalisme hallucinant » qui est célébré de toute part, mais j’avoue qu’il ne m’est pas si facile d’expliquer en détail pourquoi. Bien sûr, quelques petits détails m’interpellent immédiatement, tel le fait que la grande majorité des vidéos présentées sont au ralenti, ce qui, certes, permet de montrer le niveau de précision et de détail des images, mais qui permet aussi de pallier les éventuelles bizarreries liées à des mouvements qui manqueraient de naturel. Pour le dire clairement, je pense que ce ralenti peut être un astucieux cache-misère, à moins qu’il ne soit spontanément produit par Sora, ce qui serait un « choix » particulièrement curieux. En faisant des arrêts sur image je remarque aussi ça et là que les zones floues ou nettes ne suivent pas toujours les lois de l’optique2.
Certaines vidéos dévoilées par OpenAI contiennent de qu’on nomme en Intelligence artificielle générative des « hallucinations » : mains conformées ou articulées bizarrement, superpositions de plans absurdes, actions qui défient les lois de la physique, etc. Ces images « à problèmes », dont on se doute que tout sera fait pour éviter qu’elles n’émergent à l’avenir, ont parfois un charme surréaliste, comme la séquence d’excavation d’une chaise de jardin en plastique par des archéologues, ou l’incompréhensible multiplication des louveteaux en train de jouer.

Ce que ces images bizarres ont de beau, c’est que l’on n’est pas toujours sûr d’avoir vu ce qu’on a vu : est-ce qu’il y avait bien trois loups puis quatre ? Comment et à quel moment de la séquence la chaise s’est-elle matérialisée ? Un petit côté « vallée de l’étrange ».

Ce qui m’intéresse, ce sont plutôt les images réputées « sans problème », les images « parfaites » (et du reste sinon trop parfaites, souvent un peu trop lisses).

Le réalisme

Dans le domaine de la production d’images, je suppose que nous pouvons nous entendre sur le fait que la notion de « réalisme » décrit des représentations qui essaient d’approcher la perception naturelle que nous avons du monde qui nous entoure ‒ ou à défaut, la perception mécanique que produisent les appareils de captation qui nous sont familiers, tels que l’appareil photo et la caméra. C’est une notion subjective, par définition, puisqu’elle dépend de ce à quoi chacun de nous est attentif, en fonction de notre expérience, de l’état de nos sens ou encore de paramètres culturels, car la perception visuelle ne se résume pas à un phénomène optique, c’est aussi un processus cognitif. Il suffit pour s’en convaincre de rappeler que si nous voyions comme nos yeux, qui ne sont jamais que des camera obscura, nous verrions le sol en haut et le ciel en bas : c’est notre cerveau qui se charge d’adapter ce que nous percevons aux lois de la pesanteur3.

Les images produites par Sora n’ont pas pour référence notre perception du réel, elles se réfèrent à des images déjà produites ‒ et c’est bien normal puisque c’est à partir de l’analyse d’un corpus d’images que ces logiciels fonctionnent4. J’y perçois l’influence d’images produites par modélisation 3D (la couleur des éclairages, le niveau élevé de détail ‒ d’ailleurs certaines images sont spécifiquement faites pour évoquer non pas la vidéo mais bien l’image de films d’animation 3D façon Pixar), et souvent de ces images en 3D dont on loue le « réalisme »  ; j’y vois l’influence des images produites par les jeux vidéo (et notamment les séquences cinématiques des jeux, pour les couleurs ou les mouvements de caméra) ; j »y vois l’influence (que ce soit demandé dans le prompt ou non) d’images trafiquées selon le procédé tilt-shift ‒ qui, par un jeu de flou artificiel, fait passer une scène filmée en grandeur nature pour l’image d’une maquette ; j’y vois l’influence des images retouchées et fortement esthétisées ; je vois l’influence des images passées aux filtres « beauty » qui sévissent sur TikTok mais aussi dans l’ensemble de l’industrie cinématographique (eh non, des actrices de soixante ans qui ont une peau de bébé, ce n’est pas normal) ; j’y vois enfin l’influence de l’esthétique des clichés (au sens propre ou au sens figuré) issus de banques d’images, où les sourires frôlent le rictus, si propres, si exemptes d’aspérités, qu’elles en deviennent un rien monstrueuses… Enfin rien qui me rappelle précisément le réel.

Bien entendu, depuis que l’on filme, depuis que l’on photographie, que l’on peint, que l’on sculpte, que l’on donne des représentations théâtrales, depuis que l’on raconte, notre perception du réel (et la manière dont nous l’acceptons) est affectée par les représentations artistiques, qui affectent ensuite à leur tour la manière dont nous modelons le monde tangible ‒ depuis le paysage jusqu’à la chirurgie esthétique en passant par l’aménagement des intérieurs et les régimes amaigrissants : les fictions, y compris visuelles, sont à la fois le produit de nos sociétés, de nos mentalités, de l’époque, et les briques qui construisent nos sociétés, notre époque.
Mais que construisent des images instantanément crées, pléthoriques, lorsqu’elles ne sont que le remixage d’images passées et lorsque leur unique forme d’invention spontanée est l’erreur, le bug ? Quelle nouveauté pourront produire des images issues de collectes automatisées et qui finiront fatalement par se nourrir elles-mêmes ? Les trouverons-nous réussies juste parce qu’elles nous seront devenues familières à force de saturer notre espace visuel, comme nous finissons par accepter comme des vérités du monde physique les retouches et autre traitements opérés sur les photographies publicitaires ? Si l’on considère les images générées non pas comme des images réfléchies, construites, mais comme des patchworks statistiques, des collages, elles sont nettement moins impressionnantes et la perception de leur « réalisme » n’est jamais que le résultat d’un curieux processus : nous identifions en elles des éléments d’images déjà vues, le grain de la peau, le dégradé d’un ciel, les feuillages, les reflets,…
Cela n’est bien entendu pas sans intérêt si on ne se trompe pas sur la nature des images produites et si ceux qui manipulent ces outils se chargent d’y placer l’intelligence qu’elles n’ont pas5 ou d’y injecter un corpus de données choisi.
Sur mon mur Instagram, avant même de lire leurs noms, je reconnais au premier coup d’œil une image produite par Grégory Chatonsky, par Étienne Mineur ou par Éric Tabuchi, preuve qu’il existe un emploi des Intelligence Artificielles génératives qui est au service des auteurs plutôt que de constituer une forme de négation desdits auteurs.

Quelques dessins piqués sur le compte Instagram de David Shrigley. Je ne vois pas comment un outil de génération d’images qui repose sur la prédiction statistique pourrait produire ce genre d’images, cf. La série Neural Yorker d’Ilan Manouach, où l’IA est nourrie de dessins d’humour mais ne parvient qu’à reproduire une esthétique visuelle sans jamais produire de sens.

Mon intérêt pour la bande dessinée et l’illustration me laisse penser que les Intelligences artificielles dédiées à la génération d’images vont, dans un premier temps ‒ jusqu’au prochain saut technologique, et celui-ci adviendra ‒, donner une valeur nouvelle à tout ce qu’elles ne savent pas encore imiter de manière convaincante. Le trait, le style, la personnalité, le propos, le sens, la subjectivité.
Dans un monde où on peut en trois clics faire dire un discours de Ben Laden à Barack Obama, et où, pire peut-être, cette imposture sera acceptée par des gens qui se doutent qu’elle est forgée mais qui en louent la pertinence puisqu’elle confirme leur préjugé, les dessins ‒puisque singuliers, puisque subjectifs, puisqu’ils n’essaient pas de se faire passer pour autre chose que l’idée d’une personne tracée de la main de cette personne ‒, ont l’honnêteté de se présenter pour ce qu’ils sont. J’espère que nous leur en serons toujours reconnaissants.

La pensée chatGPT

ChatGPT (et tous les outils semblables actuels ou à venir) pose immédiatement un défi aux enseignants : les cancres ont-ils triché ? Les bons élèves eux-mêmes ont-ils cédé à la paresse ? Se sont-ils contentés d’interroger une machine qui leur a fourni une réponse médiocre mais suffisamment structurée et bien écrite pour qu’on ne puisse pas les sanctionner d’une note infamante ? Beaucoup l’ont fait, parfois par jeu, pour l’avoir tenté (et c’est très bien, c’est le moment de faire des expériences), pour éprouver la compétence ou la sagacité du prof, parfois en cherchant à pallier leurs manques (et si ChatGPT a une meilleure orthographe, pourquoi ne pas lui demander d’aide ?), parfois parce qu’ils savent qu’ils doivent rédiger, parce que le système scolaire l’attend d’eux, mais parce qu’ils ne comprennent ni quoi écrire ni comment le faire. Si ce problème a occupé et inquiété de nombreux enseignants cette année, provoquant une forme de défiance envers toute production textuelle (et particulièrement si celle-ci se révèle dignement rédigée et exempte de fautes), il n’est peut-être bien qu’un problème mineur. Tricher, plagier, recopier, n’est pas neuf. Et plagier sans même lire ce que l’on plagie n’est pas neuf non plus. Bien sûr, le fait que chaque devoir soit reçu avec suspicion crée un effet un peu déplaisant.

Le véritable problème que je vois venir avec ChatGPT n’est pas là. Tricher a toujours été un sport de potaches, un petit jeu entre l’enseignant-commanditaire et l’élève-prestataire autour de textes qui sont parfois écrits sans en avoir envie pour des gens qui les lisent sans plaisir.
Ce qui m’angoisse, c’est la perspective de voir le jour où des gens produiront de la littérature à la façon de ChatGPT sans avoir besoin du logiciel ‒ tout comme certains jeunes chanteurs virtuoses du début des années 2000 ont pu imiter spontanément, comme autant de fioritures vocales, les effets de bord de l’autotune appliqué aux voix de leurs musiciens préférés (et je parle de l’autotune discret, utilisé pour palier la fausseté des enregistrements). Ils écriront des pavés de texte en trois parties égales, pleines de superlatifs mous, de « cependant » qui ne mangent pas de pain et de « en conclusion » consensuels. Parce que c’est ChatGPT (ou d’autres outils du genre) qui leur auront enseigné comment on écrit et pire, comment on pense. Ma part optimiste voudrait croire que l’inconsistance des textes générés conférera une valeur nouvelle aux textes personnels, aux textes originaux, à l’audace littéraire. Pour peu qu’il reste des gens qui aient envie de les lire.

Annonce

Le moment que nous vivons est idéal pour faire un bilan d’étape et l’on discutera de toutes ces questions (mais aussi de questions de droits d’auteur, de vie professionnelle, et peut-être pas du risque de manipulation de l’information) en excellente compagnie6 le 19 avril lors d’une journée d’étude sur le sujet à l’école supérieure d’art et de design du Havre (programme complet à venir).

Lire ailleurs : Le Temps de l’imagination artificielle, par Philippe Boisnard ; Realistic repetition, par Gregory Chatonsky.

  1. On finit cependant par identifier une manière Midjourney, en tout cas pour les images dont le prompt ne contient pas d’indications stylistiques pour l’éviter. []
  2. Un plan net situé entre deux plans flous, c’est normal. Un plan flou situé entre deux plans nets, ça ne l’est plus. []
  3. En 1931, Theodor Erismann avait démontré la manière dont le cerveau influe sur la perception en faisant porter par un de ses étudiants des lunettes à miroir qui lui faisaient voir le monde tête-en-bas. Après une dizaine de jours, la vision du cobaye s’est rétablie ! []
  4. On sait que LAION 5B, le Dataset (base de données contenant des images et leurs légendes) utilisé pour entraîner des IAs telles que Stable Diffusion contient cinq milliards d’images. Difficile de dire à coup sûr ce que contient ce Dataset : une vie entière ne suffirait pas à visionner l’ensemble des images, même diffusées à la cadence d’une par seconde ! []
  5. Un IA telle que ChatGPT ne comprend pas la question (prompt) qu’on lui pose, ne comprend pas la réponse qu’elle fait et n’a ni l’envie ni la conscience d’être en train de répondre à une question. On lui soumet une chaîne de caractères et elle fournit en réponse une prédiction statistique de ce qu’on attend d’elle. Le plus incroyable est que, dans bien des cas, cela fonctionne bien. Mais il arrive aussi que la machine, inexplicablement, invente des dates, des événements, des détails, mais c’est normal : elle n’a aucune conscience de la notion de faits ou de vérité ‒ pas plus que la notion de mensonge, du reste. La forme d’« intelligence » qu’elle produit est contenue dans les « verrous » que lui imposent ses développeurs et qui l’amènent à accompagner ses réponses de laïus moralisateurs (veuillez noter que l’humour peut être offensant pour certaines catégories de personnes,…) ou à esquiver des sujets. []
  6. Seront présents Albertine Meunier, Jean-Louis Dessalles, Étienne Mineur, Grégory Chatonsky, Éric Tabuchi, Skygge, des représentants de la Société des arts visuels et de l’image fixe, Élodie Migliore (doctorante spécialisée en droit d’auteur) et enfin plusieurs étudiantes et étudiants de l’école qui s’amusent à pousser les IAs dans leurs retranchements. L’organisation de la journée est due à Emmanuelle Lepeltier, bibliothécaire de l’école, avec ma participation et celle de ma collègue Oriane Pichuèque. []
  1. One Response to “Voir et penser comme des machines”

  2. By Hubert Guillaud on Fév 19, 2024

    Ces vidéos me rappellent beaucoup les premières images psychédéliques et hallucinatoires de Deepdream de Google (2015), comme s’il y avait encore, au tréfond de leur style, l’expression d’une altérité à notre propre manière de voir le monde…

Postez un commentaire


Veuillez noter que l'auteur de ce blog s'autorise à modifier vos commentaires afin d'améliorer leur mise en forme (liens, orthographe) si cela est nécessaire.
En ajoutant un commentaire à cette page, vous acceptez implicitement que celui-ci soit diffusé non seulement ici-même mais aussi sous une autre forme, électronique ou imprimée par exemple.