On a demandé à John Mueller de Google combien de mégaoctets de HTML Googlebot explore par page. La question était de savoir si Googlebot indexait deux mégaoctets (Mo) ou quinze mégaoctets de données. La réponse de Mueller a minimisé l’aspect technique de la question et est allée directement au cœur du problème, qui concerne en réalité la quantité de contenu indexé.
GoogleBot et autres robots
Au milieu d’une discussion en cours à Bluesky, quelqu’un a relancé la question de savoir si Googlebot explore et indexe 2 ou 15 mégaoctets de données.
Ils ont posté :
«J’espère que vous avez tout ce qui vous a poussé à courir 🙂
Il serait super utile d’avoir plus de précisions et des exemples concrets comme « Ma page fait X Mo de long, elle est coupée après X Mo, elle charge également la ressource A : 15 Ko, la ressource B : 3 Mo, la ressource B n’est pas complètement chargée, mais la ressource A l’est parce que 15 Ko < 2 Mo ».
La panique concernant la limite de 2 mégaoctets est exagérée
Mueller a déclaré qu’il n’était pas nécessaire de peser les octets et a laissé entendre que ce qui est finalement important n’est pas de limiter le nombre d’octets sur une page, mais plutôt de savoir si les passages importants sont indexés ou non.
En outre, Mueller a déclaré qu’il est rare qu’un site dépasse deux mégaoctets de HTML, rejetant l’idée selon laquelle il est possible que le contenu d’un site Web ne soit pas indexé parce qu’il est trop volumineux.
Il a également déclaré que Googlebot n’est pas le seul robot à explorer une page Web, apparemment pour expliquer pourquoi 2 mégaoctets et 15 mégaoctets ne sont pas des facteurs limitants. Google publie une liste de tous les robots d’exploration qu’ils utilisent à diverses fins.
Comment vérifier si les passages de contenu sont indexés
Enfin, la réponse de Mueller confirme un moyen simple de vérifier si les passages importants sont indexés ou non.
Mueller a répondu :
« Google a beaucoup de robots d’exploration, c’est pourquoi nous les divisons. Il est extrêmement rare que les sites rencontrent des problèmes à cet égard, 2 Mo de HTML (pour ceux qui se concentrent sur Googlebot), c’est assez. La façon dont je vérifie habituellement est de rechercher une citation importante plus bas sur une page – généralement pas besoin de peser les octets. «
Passages pour le classement
Les gens ont une capacité d’attention limitée, sauf lorsqu’ils lisent sur un sujet qui les passionne. C’est alors qu’un article complet peut s’avérer utile pour les lecteurs qui souhaitent vraiment approfondir leurs connaissances pour en savoir plus.
Du point de vue du référencement, je peux comprendre pourquoi certains peuvent penser qu’un article complet pourrait ne pas être idéal pour le classement si un document couvre en profondeur plusieurs sujets, dont chacun pourrait être un article autonome.
Un éditeur ou un référenceur doit prendre du recul et évaluer si un utilisateur est satisfait d’une couverture approfondie d’un sujet ou si un traitement plus approfondi de celui-ci est nécessaire par les utilisateurs. Il existe également différents niveaux d’exhaustivité, un avec des détails granulaires et un autre avec un niveau de couverture globale des détails, avec des liens vers une couverture plus approfondie.
En d’autres termes, les utilisateurs ont parfois besoin d’une vue sur la forêt et parfois d’une vue sur les arbres.
Google est depuis longtemps capable de classer les passages de documents grâce à ses algorithmes de classement des passages. En fin de compte, à mon avis, cela se résume vraiment à ce qui est utile aux utilisateurs et est susceptible d’aboutir à un niveau plus élevé de satisfaction des utilisateurs.
Si une couverture complète du sujet passionne les gens et les rend suffisamment passionnés pour le partager avec d’autres personnes, alors c’est une victoire.
Si une couverture complète n’est pas utile pour ce sujet spécifique, il peut être préférable de diviser le contenu en une couverture plus courte qui correspond mieux aux raisons pour lesquelles les gens viennent sur cette page pour en savoir plus sur ce sujet.
Points à retenir
Bien que la plupart de ces points à retenir ne soient pas représentés dans la réponse de Mueller, ils représentent, à mon avis, de bonnes pratiques en matière de référencement.
- Les limites de taille HTML dissimulent une préoccupation pour des questions plus profondes sur la longueur du contenu et la visibilité de l’indexation
- Les seuils en mégaoctets sont rarement une contrainte pratique pour les pages du monde réel
- Compter les octets est moins utile que vérifier si le contenu apparaît réellement dans la recherche
- La recherche de passages distinctifs est un moyen pratique de confirmer l’indexation
- L’exhaustivité doit être déterminée par l’intention de l’utilisateur et non par les hypothèses d’exploration
- L’utilité et la clarté du contenu comptent plus que la taille du document
- La satisfaction des utilisateurs reste le facteur déterminant de la performance des contenus
Les inquiétudes quant au nombre de mégaoctets qui constituent une limite d’exploration stricte pour Googlebot reflètent l’incertitude quant à savoir si le contenu important d’un long document est indexé et est disponible pour être classé dans la recherche. Se concentrer sur les mégaoctets détourne l’attention des véritables problèmes sur lesquels les référenceurs devraient se concentrer, à savoir si la profondeur de la couverture du sujet répond le mieux aux besoins d’un utilisateur.
La réponse de Mueller renforce le fait que les pages Web trop volumineuses pour être indexées sont rares et que les limites d’octets fixes ne sont pas une contrainte dont les référenceurs devraient se soucier.
À mon avis, les référenceurs et les éditeurs bénéficieront probablement d’une meilleure couverture de recherche en détournant leur attention de l’optimisation des limites d’exploration supposées et en se concentrant plutôt sur les limites de consommation de contenu utilisateur.
Mais si un éditeur ou un référenceur s’inquiète de savoir si un passage situé à la fin d’un document est indexé, il existe un moyen simple de vérifier l’état en effectuant simplement une recherche d’une correspondance exacte pour ce passage.
Une couverture complète du sujet n’est pas automatiquement un problème de classement, et ce n’est pas toujours la meilleure (ou la pire) approche. La taille HTML n’est pas vraiment un problème à moins qu’elle n’affecte la vitesse de la page. Ce qui compte, c’est de savoir si le contenu est clair, pertinent et utile pour le public visé, aux niveaux de granularité précis qui répondent aux objectifs de l’utilisateur.