Google explique les limites d'octets et l'architecture d'exploration de Googlebot

Gary Illyes de Google a publié un article de blog expliquant le fonctionnement des systèmes d’exploration de Googlebot. L’article couvre les limites d’octets, le comportement de récupération partielle et la manière dont l’infrastructure d’exploration de Google est organisée.

Le message fait référence à l’épisode 105 du podcast Search Off the Record, où Illyes et Martin Splitt ont discuté des mêmes sujets. Illyes ajoute plus de détails sur l’architecture d’exploration et le comportement au niveau des octets.

Quoi de neuf

Googlebot est l’un des clients d’une plateforme partagée

Illyes décrit Googlebot comme « juste un utilisateur de quelque chose qui ressemble à une plate-forme d’exploration centralisée ».

Google Shopping, AdSense et d’autres produits envoient tous leurs demandes d’exploration via le même système sous des noms de robots d’exploration différents. Chaque client définit sa propre configuration, y compris la chaîne de l’agent utilisateur, les jetons robots.txt et les limites d’octets.

Lorsque Googlebot apparaît dans les journaux du serveur, il s’agit de la recherche Google. D’autres clients apparaissent sous leurs propres noms de robots, que Google répertorie sur son site de documentation sur les robots.

Comment fonctionne la limite de 2 Mo en pratique

Googlebot récupère jusqu’à 2 Mo pour n’importe quelle URL, à l’exclusion des PDF. Les PDF sont limités à 64 Mo. Les robots d’exploration qui ne spécifient pas de limite par défaut à 15 Mo.

Illyes ajoute plusieurs détails sur ce qui se passe au niveau des octets.

Il dit que les en-têtes de requête HTTP comptent dans la limite de 2 Mo. Lorsqu’une page dépasse 2 Mo, Googlebot ne la rejette pas. Le robot d’exploration s’arrête à la coupure et envoie le contenu tronqué aux systèmes d’indexation de Google et au service de rendu Web (WRS).

Ces systèmes traitent le fichier tronqué comme s’il était complet. Tout ce qui dépasse 2 Mo n’est jamais récupéré, rendu ou indexé.

Chaque ressource externe référencée dans le HTML, telle que les fichiers CSS et JavaScript, est récupérée avec son propre compteur d’octets distinct. Ces fichiers ne comptent pas dans les 2 Mo de la page parent. Les fichiers multimédias, les polices et ce que Google appelle « quelques fichiers exotiques » ne sont pas récupérés par WRS.

Rendu après la récupération

Le WRS traite JavaScript et exécute du code côté client pour comprendre le contenu et la structure d’une page. Il récupère les requêtes JavaScript, CSS et XHR mais ne demande pas d’images ou de vidéos.

Illyes note également que le WRS fonctionne sans état, effaçant le stockage local et les données de session entre les requêtes. La documentation de dépannage JavaScript de Google couvre les implications pour les sites dépendants de JavaScript.

Meilleures pratiques pour rester sous la limite

Google recommande de déplacer les CSS et JavaScript lourds vers des fichiers externes, car ceux-ci ont leurs propres limites d’octets. Les balises méta, les balises de titre, les éléments de lien, les éléments canoniques et les données structurées doivent apparaître plus haut dans le HTML. Sur les grandes pages, le contenu placé plus bas dans le document risque de tomber en dessous du seuil.

Illyes signale les images base64 en ligne, les gros blocs de CSS ou de JavaScript en ligne et les menus surdimensionnés comme exemples de ce qui pourrait pousser les pages au-delà de 2 Mo.

La limite de 2 Mo « n’est pas gravée dans le marbre et peut changer avec le temps à mesure que le Web évolue et que la taille des pages HTML augmente ».

Pourquoi c’est important

La limite de 2 Mo et la limite de 64 Mo PDF ont été documentées pour la première fois comme chiffres spécifiques à Googlebot en février. Les données des archives HTTP ont montré que la plupart des pages se situent bien en dessous du seuil. Cet article de blog ajoute le contexte technique derrière ces chiffres.

La description de la plate-forme explique pourquoi les différents robots d’exploration de Google se comportent différemment dans les journaux du serveur et pourquoi la valeur par défaut de 15 Mo diffère de la limite de 2 Mo de Googlebot. Ce sont des paramètres distincts pour différents clients.

Les détails de l’en-tête HTTP sont importants pour les pages proches de la limite. Google déclare que les en-têtes consomment une partie de la limite de 2 Mo aux côtés des données HTML. La plupart des sites ne seront pas concernés, mais les pages comportant des en-têtes volumineux et un balisage volumineux pourraient atteindre la limite plus tôt.

Regarder vers l’avenir

Google a désormais couvert les limites d’exploration de Googlebot dans des mises à jour de la documentation, un épisode de podcast et un article de blog dédié en l’espace de deux mois. La note d’Illyes selon laquelle la limite peut changer avec le temps suggère que ces chiffres ne sont pas permanents.

Pour les sites dotés de pages HTML standard, la limite de 2 Mo n’est pas un problème. Les pages comportant un contenu en ligne important, des données intégrées ou une navigation surdimensionnée doivent vérifier que leur contenu critique se trouve dans les 2 premiers Mo de la réponse.

Google explique les limites d’octets et l’architecture d’exploration de Googlebot