reCAPTCHA


La notion reCAPTCHA fait référence à un test automatisé pour différencier les humains des machines au moyen de différents modèles d'interaction et des paramètres qui y sont associés. Le test sert de contrôle d'accès aux sites Web, services en ligne, formulaires de saisie, et forums. Il s'agit essentiellement d'un service Captcha basé sur le Turing-Test : la saisie doit contrôler que l'utilisateur est autorisé en tant qu’humain et et empêcher l'entrée des machines (robots, scripts et logiciels malveillants). Alors que les versions de Captcha plus anciennes affichaient un ou deux mots visuellement déformés, la dernière version ne requiert d'un clic de l'utilisateur car Google inclut également des paramètres tels que les adresses IP, les cookies, les mouvements de la souris ainsi que le temps de visite pour identifier les utilisateurs humains. La version actuelle est aussi nommée NoCAPTCHA reCAPTCHA.

Informations générales sur le sujet

Les captchas sont utilisés depuis un certain temps pour lutter contre les spams et les logiciels malveillants mais ils constituent aussi un obstacle à l'utilisation d'un site Web ou d'un service en ligne du point de vue de l’utilisabilité. L'utilisateur doit tout d'abord effectuer une saisie avant de pouvoir continuer à interagir avec le média. Des tentatives ont donc été entreprises pour améliorer l'accessibilité en testant sans cesse de nouvelles méthodes. En effet, une personne résout les captchas plus sûrement qu'une machine car elle dispose d'expériences et de compétences que les machines n'ont pas. Par exemple, une personne peut classer les objets d'une image de manière sensée s'ils sont liés à une thématique ou peut faire des rapprochements entre des concepts et des objets. Pour la plupart des variantes de captchas, l'accessibilité a toujours été un problème, d'autant plus que les utilisateurs présentant un handicap physique ou cognitif veulent utiliser un site Web facilement. Le problème vient de la façon dont on pourrait empêcher les machines et les robots d'accéder au média sans altérer l'accessibilité et l’utilisabilité.

Fonctionnement

La base fonctionnelle du procédé Captcha (Completely Automated Public Turing test to tell Computers and Humans Apart) est le test de Turing. Trois participants (A, B et C) effectuent un test : une personne (C) essaye de déterminer si les deux autres participants sont un humain (A) ou un ordinateur (B). L'homme comme l'ordinateur veulent convaincre la personne qu'ils sont humains et donc capables de réflexion ou doués de conscience. S'ils y parviennent, le test est réussi. Le fonctionnement des Captcha est basé sur ce test avec cependant quelques modifications : l'interrogateur n'est pas une personne mais un ordinateur qui doit identifier un utilisateur comme étant humain selon les saisies effectuées. C'est pour cela que les concepts Challenge-Response-Test (français : test de réponse de vérification) ou Human Interaction Proof (français : preuve d'interaction humaine ; en abrégé : HIP) sont souvent utilisés comme synonymes pour de tels tests.

reCAPTCHA

Selon une étude de l'université Carnergie Mellon, qui a initié le projet reCAPTCHA, des centaines de milliers d'heures ont été passées chaque jour à résoudre des captchas en 2000. Ces données servent au projet, repris en 2009 par Google, comme contribution pour l'apprentissage machine. Les données saisies par les utilisateurs appuient la numérisation de différents médias. L'un des mots affichés dans le champ de saisie du Captcha, n'ayant pas encore pu être numérisé, doit être complété par l'utilisateur. Les entrées de tous les utilisateurs sont ensuite utilisées pour Google Books et Google News afin de faciliter la numérisation de livres, magazines et revues. La numérisation est appelée Optical Character Recognition (français : reconnaissance optique de caractère ; en abrégé : OCR). L'entreprise utilise aussi cette technologie pour Google Street View et Google Maps, par exemple pour le tracking de lieux à l'aide de photos de panneaux de signalisation. L'idée d'utiliser les données comme crowdsourcing ou crowdtesting est toujours à l’œuvre. Toutefois, le genre d'entrées a changé et l'ordinateur est devenu plus "intelligent" grâce à l'apprentissage machine.

NoCAPTCHA reCAPTCHA

Le projet NoCAPTCHA reCAPTCHA est la continuité du développement de la méthode Captcha utilisée jusqu'alors. Les utilisateurs n'ont plus à saisir de mots, mais confirment qu'ils sont humains en cochant la case « Je ne suis pas un robot. » Le système, qui travaille comme une intelligence artificielle, examine des paramètres utilisateurs supplémentaires à chaque appel d'un formulaire de saisie ou d'un service en ligne et les compare avec les données déjà collectées. Si les données indiquent une machine, un test classique est proposé et l'utilisateur doit par exemple saisir des mots ou identifier des objets sur des photos. Chacune de ces interactions aide le project NoCAPTCHA reCAPTCHA à différencier humains et machines ainsi qu'à numériser davantage de données.[1]

Le comportement de navigation, l'historique de navigation, le terminal, les diverses caractéristiques de la configuration réseau et quelques paramètres confidentiels servent à la différenciation par le système car les robots ou machines ne peuvent pas simuler ces paramètres, selon Google. Les KPI de l'analyse Web sont utilisés pour créer une empreinte digitale et ainsi identifier l'utilisateur comme être humain. Pour les utilisateurs humains, l'utilisation est facile tandis que les robots et machines sont bloqués. L'accessibilité est garantie du fait que le système fournit une version audio de la méthode captcha pour certains utilisateurs.

Signification pour le développement

La méthode du Captcha est relativement simple pour les utilisateurs ordinaires mais à long terme, ce n'est pas une solution au problème des spam et des logiciels malvaillants. En effet, sur cette page aussi des machines peuvent être utilisées pour apprendre à agir comme des humains. Par exemple, les spambots pourraient être entraînés à résoudre certaines questions et certains problèmes de façon toujours plus fiable jusqu'à se faire passer pour des humains. Il y a quelques temps, la version audio de la méthode Captcha a été piratée et les développeurs ont pu faire croire au système qu'il s'agissait d'humains. Google a immédiatement réagi et a modifié le code source du système de façon à corriger cette faille. Cet exemple montre que les méthodes de lutte contre les spams doivent continuellement évoluer pour rester efficaces. Cela prouve aussi que ces méthodes ne sont pas toujours compatibles avec les aspects de l'accessibilité et de l’utilisabilité, même si ce serait la solution idéale.

Référence

  1. Are you a robot? Introducing “No CAPTCHA reCAPTCHA” security.googleblog.com, ouvert le 21.11.2017

Liens web