Google réorganise l'intégralité de la documentation du robot d'exploration

Google a lancé une refonte majeure de sa documentation Crawler, réduisant la page d'aperçu principale et divisant le contenu en trois nouvelles pages plus ciblées. Bien que le journal des modifications minimise les changements, il existe une toute nouvelle section et une réécriture de l'intégralité de la page d'aperçu du crawler. Les pages supplémentaires permettent à Google d'augmenter la densité d'informations de toutes les pages du crawler et d'améliorer la couverture thématique.

Qu'est-ce qui a changé ?

Le journal des modifications de la documentation de Google note deux changements, mais il y en a en réalité beaucoup plus.

Voici quelques-uns des changements :

  • Ajout d'une chaîne d'agent utilisateur mise à jour pour le robot d'exploration GoogleProducer
  • Informations sur le codage du contenu ajoutées
  • Ajout d'une nouvelle section sur les propriétés techniques

La section des propriétés techniques contient des informations entièrement nouvelles qui n'existaient pas auparavant. Le comportement du robot d'exploration ne change pas, mais en créant trois pages thématiques spécifiques, Google est en mesure d'ajouter plus d'informations à la page de présentation du robot d'exploration tout en la réduisant.

Voici les nouvelles informations sur l'encodage du contenu (compression) :

« Les robots d'exploration et les récupérateurs de Google prennent en charge les encodages de contenu (compressions) suivants : gzip, deflate et Brotli (br). Les encodages de contenu pris en charge par chaque agent utilisateur de Google sont annoncés dans l'en-tête Accept-Encoding de chaque requête qu'ils effectuent. Par exemple, Accept-Encoding : gzip, deflate, br. »

Vous trouverez ici des informations supplémentaires sur l'exploration via HTTP/1.1 et HTTP/2, ainsi qu'une déclaration indiquant que leur objectif est d'explorer autant de pages que possible sans impacter le serveur du site Web.

Quel est l’objectif de la refonte ?

La modification de la documentation est due au fait que la page d'aperçu est devenue plus grande. Des informations supplémentaires sur le crawler rendraient la page d'aperçu encore plus grande. Il a été décidé de diviser la page en trois sous-rubriques afin que le contenu spécifique du crawler puisse continuer à s'étoffer et de faire de la place pour des informations plus générales sur la page d'aperçu. Le fait de diviser les sous-rubriques en pages distinctes est une solution brillante au problème de la meilleure façon de servir les utilisateurs.

Voici comment le journal des modifications de la documentation explique le changement :

« La documentation est devenue très longue, ce qui a limité notre capacité à étendre le contenu de nos robots d'exploration et de nos récupérateurs déclenchés par les utilisateurs.

… Nous avons réorganisé la documentation des robots d'exploration et des récupérateurs déclenchés par l'utilisateur de Google. Nous avons également ajouté des notes explicites sur le produit concerné par chaque robot d'exploration et ajouté un extrait de fichier robots.txt pour chaque robot d'exploration afin de montrer comment utiliser les jetons d'agent utilisateur. Sinon, aucun changement significatif n'a été apporté au contenu.

Le journal des modifications minimise les changements en les décrivant comme une réorganisation car la vue d'ensemble du robot d'exploration est considérablement réécrite, en plus de la création de trois nouvelles pages.

Bien que le contenu reste sensiblement le même, la division en sous-thèmes permet à Google d'ajouter plus facilement du contenu aux nouvelles pages sans continuer à développer la page d'origine. La page d'origine, appelée Présentation des robots d'exploration et des récupérateurs Google (agents utilisateurs), est désormais une véritable présentation avec un contenu plus détaillé déplacé vers des pages autonomes.

Google a publié trois nouvelles pages :

  1. Les rampants communs
  2. Robots d'exploration pour cas spéciaux
  3. Récupérateurs déclenchés par l'utilisateur

1. Les rampants communs

Comme indiqué dans le titre, il s'agit de robots d'exploration courants, dont certains sont associés à GoogleBot, notamment Google-InspectionTool, qui utilise l'agent utilisateur GoogleBot. Tous les robots répertoriés sur cette page obéissent aux règles du fichier robots.txt.

Voici les robots d'exploration Google documentés :

  • Googlebot
  • Image de Googlebot
  • Vidéo de Googlebot
  • Actualités de Googlebot
  • Google StoreBot
  • Outil d'inspection Google
  • GoogleAutre
  • GoogleAutre-Image
  • GoogleAutre-Vidéo
  • Google CloudVertexBot
  • Google étendu

3. Crawlers pour cas spéciaux

Il s'agit de robots d'exploration associés à des produits spécifiques et explorés en accord avec les utilisateurs de ces produits et fonctionnant à partir d'adresses IP distinctes des adresses IP des robots d'exploration GoogleBot.

Liste des robots d'exploration pour cas spéciaux :

  • AdSense
    Agent utilisateur pour Robots.txt : Mediapartners-Google
  • AdsBot
    Agent utilisateur pour Robots.txt : AdsBot-Google
  • AdsBot Mobile Web
    Agent utilisateur pour Robots.txt : AdsBot-Google-Mobile
  • API-Google
    Agent utilisateur pour Robots.txt : API – Google
  • Sécurité Google
    Agent utilisateur pour Robots.txt : Google-Safety

3. Extracteurs déclenchés par l'utilisateur

La page des récupérateurs déclenchés par l'utilisateur couvre les robots qui sont activés par la demande de l'utilisateur, expliqués comme ceci :

« Les récupérateurs déclenchés par l'utilisateur sont lancés par les utilisateurs pour exécuter une fonction de récupération dans un produit Google. Par exemple, Google Site Verifier agit sur la demande d'un utilisateur, ou un site hébergé sur Google Cloud (GCP) dispose d'une fonctionnalité qui permet aux utilisateurs du site de récupérer un flux RSS externe. Étant donné que la récupération a été demandée par un utilisateur, ces récupérateurs ignorent généralement les règles robots.txt. Les propriétés techniques générales des robots d'exploration de Google s'appliquent également aux récupérateurs déclenchés par l'utilisateur. »

La documentation couvre les robots suivants :

  • Récupérateur de flux
  • Centre des éditeurs Google
  • Google Lire à haute voix
  • Vérificateur de site Google

Emporter:

La page de présentation des robots d'exploration de Google est devenue trop complète et peut-être moins utile, car les utilisateurs n'ont pas toujours besoin d'une page complète, ils sont simplement intéressés par des informations spécifiques. La page de présentation est moins spécifique, mais aussi plus facile à comprendre. Elle sert désormais de point d'entrée où les utilisateurs peuvent accéder à des sous-sujets plus spécifiques liés aux trois types de robots d'exploration.

Cette modification permet de savoir comment rafraîchir une page qui pourrait être sous-performante parce qu'elle est devenue trop complète. La division d'une page complète en pages autonomes permet aux sous-thèmes de répondre aux besoins spécifiques des utilisateurs et éventuellement de les rendre plus utiles s'ils se classent dans les résultats de recherche.

Je ne dirais pas que le changement reflète quoi que ce soit dans l'algorithme de Google, il reflète seulement la façon dont Google a mis à jour sa documentation pour la rendre plus utile et la configurer pour ajouter encore plus d'informations.

Lire la nouvelle documentation de Google

Présentation des robots d'exploration et des récupérateurs de Google (agents utilisateurs)

Liste des robots d'exploration courants de Google

Liste des robots d'exploration spécifiques à Google

Liste des récupérateurs déclenchés par les utilisateurs de Google