Le guide mis à jour de Google sur les robots d'exploration recommande les ETags

Google a annoncé une mise à jour de la documentation de son robot d'exploration, ajoutant plus d'informations sur la mise en cache, ce qui devrait aider à mieux comprendre comment optimiser le robot d'exploration de Google. En suivant les nouvelles directives sur la mise en œuvre des en-têtes de mise en cache HTTP appropriés, les référenceurs et les éditeurs peuvent améliorer l'efficacité de l'exploration et optimiser les ressources du serveur.

Documentation du robot d'exploration mise à jour

La documentation des robots d'exploration comporte désormais une section expliquant comment les robots d'exploration de Google utilisent les mécanismes de mise en cache HTTP qui permettent de conserver les ressources informatiques des éditeurs et de Google pendant l'exploration.

Les ajouts à la documentation élargissent considérablement la version précédente.

Mécanismes de mise en cache

Google recommande d'activer la mise en cache avec des en-têtes tels que ETag et If-None-Match, ainsi que éventuellement Last-Modified et If-Modified-Since, pour signaler si le contenu a changé. Cela peut contribuer à réduire les explorations inutiles et à économiser les ressources du serveur, ce qui constitue un avantage à la fois pour les éditeurs et pour les robots d'exploration de Google.

La nouvelle documentation indique :

« L'infrastructure d'exploration de Google prend en charge la mise en cache HTTP heuristique telle que définie par la norme de mise en cache HTTP, en particulier via l'en-tête de requête ETag et If-None-Match, ainsi que l'en-tête de requête Last-Modified et If-Modified-Since. »

Préférence de Google pour la préférence pour ETag

Google recommande d'utiliser ETag plutôt que Last-Modified, car ETag est moins sujet aux erreurs telles que les problèmes de formatage de date et fournit une validation de contenu plus précise. Il explique également ce qui se passe si les en-têtes de réponse ETag et Last-Modified sont servis :

« Si les champs d'en-tête de réponse ETag et Last-Modified sont présents dans la réponse HTTP, les robots d'exploration de Google utilisent la valeur ETag comme l'exige la norme HTTP. »

La nouvelle documentation indique également que les autres directives de mise en cache HTTP ne sont pas prises en charge.

Prise en charge variable sur les robots d'exploration

La nouvelle documentation explique que la prise en charge de la mise en cache diffère selon les robots d'exploration de Google. Par exemple, Googlebot prend en charge la mise en cache pour la réexploration, tandis que Storebot-Google offre une prise en charge limitée de la mise en cache.

Google explique :

« Les robots d'exploration et les récupérateurs de Google peuvent ou non utiliser la mise en cache, en fonction des besoins du produit auquel ils sont associés. Par exemple, Googlebot prend en charge la mise en cache lors de la réexploration des URL pour la recherche Google, et Storebot-Google ne prend en charge la mise en cache que dans certaines conditions.

Conseils sur la mise en œuvre

La nouvelle documentation de Google recommande de contacter les fournisseurs d'hébergement ou de CMS pour obtenir de l'aide. Il suggère également (mais n'exige pas) que les éditeurs définissent le champ max-age de l'en-tête de réponse Cache-Control afin d'aider les robots d'exploration à savoir quand explorer des URL spécifiques.

Article de blog entièrement nouveau

Google a également publié un tout nouvel article de blog :

Crawling décembre : mise en cache HTTP

Lisez la documentation mise à jour :

Mise en cache HTTP