Le nouveau visiteur du Web vient d'obtenir une identité

Le 20 mars 2026, Google a discrètement ajouté une nouvelle entrée à sa liste officielle de récupérateurs de sites Web. Pas un robot. Pas un robot d’entraînement. Un agent.

Google-Agent est la chaîne d’agent utilisateur pour les systèmes d’IA exécutés sur l’infrastructure Google qui parcourent les sites Web au nom des utilisateurs. Lorsqu’une personne demande à un assistant IA de rechercher un produit, de remplir un formulaire ou de comparer les options de plusieurs sites Web, c’est l’agent Google qui visite réellement la page. Project Mariner, l’outil expérimental de navigation par IA de Google, est le premier produit à l’utiliser.

Ce n’est pas Googlebot. Googlebot explore le Web en permanence et indexe les pages pour la recherche. Google-Agent n’apparaît que lorsqu’un humain le lui demande. Cette distinction change tout dans son fonctionnement.

Robots.txt ne s’applique pas

Google classe Google-Agent comme un outil de récupération déclenché par l’utilisateur. La catégorie comprend des outils tels que Google Read Aloud (texte-parole), NotebookLM (analyse de documents) et Feedfetcher (RSS). Tous partagent une propriété : un humain a initié la demande. La position de Google est que les récupérateurs déclenchés par l’utilisateur « ignorent généralement les règles du fichier robots.txt » parce que la récupération a été demandée par une personne.

La logique : si vous saisissez une URL dans Chrome, le navigateur récupère la page indépendamment de ce que dit le fichier robots.txt. Google-Agent fonctionne sur le même principe. L’agent est le proxy de l’utilisateur et non un robot d’exploration autonome.

Il s’agit d’un changement significatif par rapport à la façon dont OpenAI et Anthropic gèrent un trafic similaire. ChatGPT-User et Claude-User fonctionnent tous deux comme des récupérateurs déclenchés par l’utilisateur, mais ils respectent les directives robots.txt. Si vous bloquez ChatGPT-User dans robots.txt, ChatGPT ne récupérera pas votre page lorsqu’un utilisateur lui demandera de naviguer. Google a passé un appel différent.

Les propriétaires de sites Web qui comptaient sur robots.txt comme mécanisme de contrôle d’accès universel ont désormais une lacune. Si vous devez restreindre l’accès depuis Google-Agent, vous aurez besoin d’une authentification côté serveur ou de contrôles d’accès. Les mêmes outils que vous utiliseriez pour bloquer un visiteur humain.

Identité cryptographique : authentification par robot Web

Le développement le plus important est enfoui dans une seule ligne de la documentation de Google : Google-Agent expérimente le web-bot-auth protocole utilisant l’identité https://agent.bot.goog.

Web Bot Auth est un projet de norme de l’IETF qui fonctionne comme un passeport numérique pour les robots. Chaque agent détient une clé privée, publie sa clé publique dans un répertoire et signe cryptographiquement chaque requête HTTP. Le site Web vérifie la signature et sait, avec une certitude cryptographique, que le visiteur est bien celui qu’il prétend être.

Les chaînes de l’agent utilisateur peuvent être usurpées par n’importe qui. L’authentification Web Bot ne le peut pas. L’adoption par Google de ce protocole, même à titre expérimental, indique vers où se dirige l’identité de l’agent. Akamai, Cloudflare et Amazon (AgentCore Browser) le prennent déjà en charge. Google apporte la masse critique.

C’est important car le Web est sur le point d’avoir un problème d’identité. À mesure que le trafic d’agents augmente, les sites Web doivent faire la distinction entre les agents d’IA légitimes agissant pour le compte d’utilisateurs réels et les scrapers se faisant passer pour des agents. La vérification IP est utile, mais les signatures cryptographiques évoluent mieux et sont plus difficiles à falsifier.

Ce que cela signifie pour votre site Web

Google-Agent crée un modèle de visiteur à trois niveaux pour le Web :

Visiteurs humains naviguer directement.
Robots d’exploration indexation de contenu pour la recherche et la formation (Googlebot, GPTBot, Google-Extended).
Agents agir pour le compte d’humains spécifiques en temps réel (Google-Agent, ChatGPT-User, Claude-User).

Chaque niveau a des règles d’accès différentes, des intentions différentes et des attentes différentes. Un robot souhaite indexer votre contenu. Un agent souhaite terminer une tâche. Il peut s’agir de lire une page produit, de comparer les prix, de remplir un formulaire de contact ou de prendre rendez-vous.

Voici ce qu’il faut faire maintenant :

Surveillez vos journaux. Google-Agent s’identifie avec une chaîne d’agent utilisateur contenant compatible; Google-Agent. Google publie des plages IP pour vérification. Commencez à suivre la fréquence à laquelle les agents visitent, les pages qu’ils consultent et ce qu’ils tentent de faire.

Vérifiez vos règles CDN et pare-feu. Si vos outils de sécurité bloquent de manière agressive le trafic non-navigateur, l’agent Google peut être rejeté avant qu’il n’atteigne votre serveur. Vérifiez que les plages d’adresses IP publiées par Google sont autorisées.

Testez vos formulaires et flux. Google-Agent peut soumettre des formulaires et naviguer dans des processus en plusieurs étapes. Si vos formulaires de paiement, de réservation ou de contact reposent sur des modèles JavaScript qui confondent les systèmes automatisés, les visiteurs des agents échoueront silencieusement. Le HTML sémantique et les étiquettes claires restent la base.

Acceptez que robots.txt n’est plus un outil complet de contrôle d’accès. Pour le contenu que vous devez réellement restreindre, utilisez l’authentification. robots.txt a été conçu pour les robots d’exploration. L’ère des agents nécessite des frontières différentes.

Le Web hybride n’arrive pas. C’est enregistré

Il y a un an, l’idée selon laquelle des agents IA navigueraient sur des sites Web aux côtés d’humains n’était qu’une prédiction lors d’une conférence. Aujourd’hui, il dispose d’une chaîne d’agent utilisateur, de plages d’adresses IP publiées, d’un protocole d’identité cryptographique et d’une entrée dans la documentation officielle de Google.

Le Web ne s’est pas divisé entre humains et machines. Il a fusionné. Chaque page que vous publiez dessert désormais les deux publics simultanément, et Google vient de permettre de voir exactement quand le public non humain apparaît.

Plus de ressources :

Cet article a été initialement publié sur No Hacks.

Le nouveau visiteur du Web vient d’obtenir une identité

Robots.txt ne s’applique pas

Identité cryptographique : authentification par robot Web

Ce que cela signifie pour votre site Web

Le Web hybride n’arrive pas. C’est enregistré