Google a discrètement ajouté un nouveau robot à la documentation de son robot d'exploration qui explore les sites pour le compte des clients commerciaux de son produit Vertex AI. Il semble que le nouveau robot d'exploration ne puisse explorer que les sites contrôlés par les propriétaires des sites, mais la documentation n'est pas entièrement claire sur ce point.
Agents Vertex AI
Google-CloudVertexBot, le nouveau robot d'exploration, ingère le contenu du site Web pour les clients Vertex AI, contrairement aux autres robots répertoriés dans la documentation de Search Central qui sont liés à la recherche Google ou à la publicité.
La documentation officielle de Google Cloud propose les informations suivantes :
« Dans Vertex AI Agent Builder, il existe différents types de magasins de données. Un magasin de données ne peut contenir qu'un seul type de données. »
La documentation énumère ensuite six types de données, dont les données des sites Web publics. Concernant l'exploration, la documentation indique qu'il existe deux types d'exploration de sites Web avec des limitations spécifiques à chaque type.
- Indexation de base du site Web
- Indexation avancée de sites Web
La documentation est confuse
La documentation explique les données du site Web :
« Un magasin de données avec des données de sites Web utilise des données indexées à partir de sites Web publics. Vous pouvez fournir un ensemble de domaines et configurer une recherche ou des recommandations sur les données extraites des domaines. Ces données incluent du texte et des images étiquetés avec des métadonnées. »
La description ci-dessus ne dit rien sur la vérification des domaines. La description de l'indexation de site Web de base ne dit rien non plus sur la vérification du propriétaire du site.
Mais la documentation relative à l'indexation avancée des sites Web indique que la vérification du domaine est requise et impose également des quotas d'indexation.
Cependant, la documentation du robot lui-même indique que le nouveau robot explore à la « demande des propriétaires de sites », il se peut donc qu'il n'explore pas les sites publics.
Voici maintenant la partie déroutante : la notation du journal des modifications pour ce nouveau robot indique que le nouveau robot pourrait venir gratter votre site.
Voici ce que dit le journal des modifications :
« Le nouveau robot d'exploration a été introduit pour aider les propriétaires de sites à identifier le nouveau trafic du robot d'exploration. »
Nouveau robot d'exploration Google
Le nouveau robot s'appelle Google-CloudVertexBot.
Voici les nouvelles informations à ce sujet :
« Google-CloudVertexBot explore les sites à la demande des propriétaires de sites lors de la création d'agents Vertex AI.
Jetons d'agent utilisateur
- Google CloudVertexBot
- « Googlebot »
Sous-chaîne de l'agent utilisateur
Google CloudVertexBot
Documentation peu claire
La documentation semble indiquer que le nouveau robot n'indexe pas les sites publics, mais le journal des modifications indique qu'il a été ajouté pour que les propriétaires de sites puissent identifier le trafic provenant du nouveau robot. Devez-vous bloquer le nouveau robot avec un fichier robots.txt juste au cas où? Il n'est pas déraisonnable de considérer cela étant donné que la documentation n'est pas très claire sur le fait qu'elle explore uniquement les domaines vérifiés comme étant sous le contrôle de l'entité qui lance l'exploration.
Lisez la nouvelle documentation de Google :
Google CloudVertexBot