Profitez-en, après celui là c'est fini

Typographie pour humains

juin 12th, 2008 Posted in Design, logiciels

Si le spam relève parfois de l’art brut, c’est aussi le cas du Captcha auquel on peut même prêter des implications philosophiques, puisqu’il cherche à identifier si une intelligence est de nature humaine ou automatique. Nous revoilà plongés dans une des questions fondamentales de la théologie, de la politique, du droit et de la pensée : « qu’est-ce qu’un homme ? ».

Tout ce qui peut-être modélisé numériquement, tout ce qui passe par le réseau, donc, peut ou pourra être répliqué, dupliqué, simulé, émulé. Il en va ainsi de la présence humaine, et c’est ce qui a motivé le Captcha (Completely Automated Public Turing test to Tell Computers and Humans Apart), un moyen mis en place pour détecter les automates en tirant parti de leurs maladresses. Car Internet est rempli d’automates (« bots« ) qui font mine d’avoir une activité « humaine ». Ils envoient des e-mails, commentent des articles sur des blogs, cliquent régulièrement sur des bannières publicitaires, inscrivent massivement des faux utilisateurs à des services divers, cherchent à entrer sur des sites à l’accès protégé, effectuent des requêtes répétitives, etc. Le but de tous ces robots est presque exclusivement publicitaire et/ou malveillant.
La publicité n’est pas toujours directe : quand un blog reçoit en commentaire un message inintelligible mais contenant quelques liens, ce n’est pas destinés à des lecteurs humains mais au robot référenceur de Google, qui évalue le « google rank » d’un site selon le nombre d’autres sites qui pointent vers lui. Mettre un lien en commentaire d’une centaine de blogs permet à un site d’obtenir un référencement exceptionnel.

La parade élémentaire contre toute utilisation frauduleuse d’un service sur le réseau, c’est l’accès réservé par mot de passe. Mais un tel procédé va à l’encontre de la philosophie du Web 2.0 qui est de transformer les visiteurs des sites en consommateurs actifs de contenu (je détaille tout ça dans un article qui devrait paraître bientôt dans la revue Marges).
Puisqu’il est généralement plus important pour le Web 2.0 de distinguer les robots des humains que de connaître l’identité des visiteurs, on a donc mis au point le Captcha, qui a l’avantage majeur d’être non-intrusif puisqu’il ne réclame pas d’informations confidentielles de la part de l’utilisateur.

Le captcha le plus populaire est le recours à des images de texte que l’on doit identifier. En effet, lire une chaîne de caractères est quelque chose d’élémentaire pour un programme informatique, mais comprendre un texte diffusé sous forme d’image gif ou jpeg est nettement plus complexe et réclame une interprétation de ce qui est écrit.
La reconnaissance de caractères est un des domaines qui a le mieux réussi à l’intelligence artificielle, et cette réussite a eu pour moteur les besoins de l’industrie pour qui chaque action automatisable permet de faire des économies importantes (en matière de personnel). Dans un premier temps, les moyens mis au point pour lire les textes réclamaient un effort important en amont, on se rappellera que c’est pour cela qu’a été mise au point la typographie « MICR » utilisée sur les billets de banque. Les codes-barre sont aussi un moyen de faciliter la lecture pour la machine. Il n’est pas rare qu’on adapte des traits humains aux limites cognitives d’un logiciel, par exemple en imposant une expression neutre aux personnes dont on veut reconnaître le faciès, en adaptant son articulation et ses intonations aux besoins des logiciels de reconnaissance vocale ou encore en imposant des gestes précis à ceux dont on veut interpréter l’écriture manuscrite.
Le logiciel Graffiti, des assistants personnels Palm impose par exemple une néographie – un alphabet, ou plutôt des gestes d’écriture précis – adaptée à son entendement :

Graffiti (néographie PalmOS)

Mais malgré les difficultés, la science de la reconnaissance des caractères progresse sans cesse et accepte à présent des documents mal scannés, des photocopies douteuses et des textes inclinés. Il est donc relativement facile d’identifier une série de lettres et de chiffres écrits en noir sur blanc dans une typo standard telle que Times.
Alors les images « captcha » sont de plus en plus compliquées : changements de typo, déformation des lettres, baisse du contraste (plus le contraste est fort et mieux l’ordinateur comprend), augmentation du « bruit » dans l’image, tout est bon pour rendre les mots illisibles.
Ces méthodes rappellent furieusement la créativité typographique qui a entouré les débuts du graphisme sur ordinateur, à se demander s’il ne s’agit pas de se moquer des « Dirty faces » de Neville Brody ou des typographies du fondeur 2rebels. Il semble qu’il existe des captcha sonores mais je n’en ai pas rencontré à ce jour.

À l’usage, il y a un problème logique : chacun de ces captcha est généré par un algorithme informatique. Il suffit donc de comprendre l’algorithme pour mettre au point un moyen de contourner la protection. C’est ainsi que les systèmes des grands webmails gratuits (Google, Yahoo, Hotmail) ont récemment été « crackés », devenant des plate-formes de rêve pour la diffusion de spams massifs : des logiciels créent des comptes e-mail, les emploient pendant quelques heures puis les délaissent pour en créer d’autres, etc.
Le problème de fiabilité du système ne vient d’ailleurs pas toujours du captcha mais de la manière dont les lettres saisies par l’internaute sont comparées à l’image proposée, car pour que le serveur puisse effectuer une telle comparaison, il faut que l’utilisateur lui envoie les moyens de le faire. Je me rappelle être tombé sur un captcha illisible mais pour lequel le code à identifier était écrit en toutes lettres dans l’HTML de la page web en question, sous forme de champ caché de formulaire (si vous ne comprenez pas ce que je raconte, disons que ça revient à mettre la clef de sa maison sous le paillasson).
Mais un autre problème apparaît vite, celui des limites de l’utilisateur non-robotique. Combien de fois avez-vous du re-saisir un code parce que vous ne pouviez pas différencier un 0 d’un O, un 9 d’un q, un A d’un 4, un i ou un l d’un 1, etc ? D’ailleurs l’humanité ne réside-t-elle pas partiellement dans le fait de commettre des erreurs ? Le programme, s’il a la bonne règle à appliquer, ne se trompera pas. Et que se passe-t-il pour les dyslexiques ou pour les personnes qui ont de gros problèmes de vue ? Le consortium W3C, qui édicte les normes du web, voit dans le captcha (qu’il considère comme souvent inutile et inefficace) une entrave à la navigation de nombreuses personnes handicapées.
Au chapitre des idées originales, il faut mentionner le ReCaptcha du chercheur Luis Von Ahn à l’université Carnegie Mellon. Ce système ne propose pas un mot à identifier mais deux. Un des deux mots a été généré par ordinateur, l’autre provient d’une numérisation qu’un logiciel de reconnaissance de caractères n’est pas parvenu à interpréter. Si le mot généré est correctement compris, le programme en déduit que le second l’a probablement été aussi et il peut donc participer à enrichir le fonds d’ouvrages tombés dans le domaine public numérisés pour le compte de l’Internet Archive Foundation.

Une mode actuelle est de rendre le message sophistiqué et inattendu. Demander par exemple combien fait la somme de trente-deux et de zéro, quelle est la quatrième lettre du mot Gwplz1 ou quelle est la couleur du cheval blanc d’Henri IV sont autant de questions qui réclament une réflexion d’un type que l’on ne peut pour l’instant pas exiger de la part des machines. Elles ont aussi la vertu — ou l’inconvénient — de permettre de limiter son audience aux locuteurs d’une langue précise. Ainsi, seule une personne parlant le français pourra répondre à la question « quelle est la couleur du cheval blanc d’Henri IV ».
On peut imaginer de créer des captcha qui serviraient à réserver l’accès à un site non seulement à des êtres humains, mais à des êtres humains appartenant à un milieu culturel bien précis.
Des gens qui connaissent suffisamment bien Star Wars pour répondre à la question « À quel ordre de chevalerie appartient Luke Skywalker ? » ou qui utilisent tel ou tel vocabulaire d’une manière fortement codée (les gens qui disent « extrème droite » ne votent pas comme ceux qui parlent de « droite nationale » par ex.), ou qui savent que Donatello, Leonardo, Michelangelo et Raffaelo ne sont pas (que) des Tortues Ninja.
On peut aussi imaginer un système dynamique et invisible qui épie l’internaute, qui vérifie si le curseur de sa souris bouge, s’il visite plusieurs pages et s’il passe du temps sur chaque, ou si au contraire il poste un commentaire au moment même où il charge la page.

Il existe de nombreuses alternatives au captcha promises à un certain succès dans l’avenir, comme la biométrie et/ou l’identité généralisée (une seule identité, un seul mot de passe pour tous les services web). Les problèmes qui ont imposé la création du captcha sont en tout cas loin d’être résolus.

À lire aussi : Es-tu humain ? (Gregory Chatonsky), Captcha échaudé craint l’eau froide, Recaptcha : 10 secondes rendues utiles et Quand le spam pourrit les blogs (Sébastien Delahaye/Écrans).
À voir, l’œuvre en ligne « OK » (2005), par Claude Closky, qui récupère dynamiquement les captcha de Google. Quelques autres oeuvres : Halt! Robot (2006), par Guthrie Lonergan ; Winter 2006 (2006) par Dragan Espenschied ; Word Verification (2008), par Max Kotelchuck. Dream Captcha (2008), par Jeffrey Augustine Songco. Are you human?, par Aram Bartholl. Humains après tout ? chez Scriptopolis.

  1. 1 Trackback(s)

  2. Juil 17, 2008: Network Research » Corporate Suite

Postez un commentaire


Veuillez noter que l'auteur de ce blog s'autorise à modifier vos commentaires afin d'améliorer leur mise en forme (liens, orthographe) si cela est nécessaire.
En ajoutant un commentaire à cette page, vous acceptez implicitement que celui-ci soit diffusé non seulement ici-même mais aussi sous une autre forme, électronique ou imprimée par exemple.