Google Search Central a lancé une nouvelle série intitulée « Crawling December » pour fournir des informations sur la manière dont Googlebot explore et indexe les pages Web.
Google publiera chaque semaine ce mois-ci un nouvel article explorant divers aspects du processus d'exploration qui ne sont pas souvent abordés mais qui peuvent avoir un impact significatif sur l'exploration de sites Web.
Le premier article de la série couvre les bases de l'exploration et met en lumière des détails essentiels mais moins connus sur la façon dont Googlebot gère les ressources des pages et les budgets d'exploration.
Notions de base de l'exploration
Les sites Web d'aujourd'hui sont complexes en raison de JavaScript et de CSS avancés, ce qui les rend plus difficiles à explorer que les anciennes pages HTML uniquement. Googlebot fonctionne comme un navigateur Web mais selon un calendrier différent.
Lorsque Googlebot visite une page Web, il télécharge d'abord le code HTML à partir de l'URL principale, qui peut renvoyer vers du JavaScript, du CSS, des images et des vidéos. Ensuite, le service de rendu Web (WRS) de Google utilise Googlebot pour télécharger ces ressources afin de créer la page vue finale.
Voici les étapes dans l'ordre :
- Téléchargement HTML initial
- Traitement par le service de rendu Web
- Récupération de ressources
- Construction de la dernière page
Gestion du budget d'exploration
L'exploration de ressources supplémentaires peut réduire le budget d'exploration du site Web principal. Pour vous aider, Google indique que « WRS essaie de mettre en cache toutes les ressources (JavaScript et CSS) utilisées dans les pages qu'il affiche ».
Il est important de noter que le cache WRS dure jusqu'à 30 jours et n'est pas influencé par les règles de mise en cache HTTP définies par les développeurs.
Cette stratégie de mise en cache permet d'économiser le budget d'exploration d'un site.
Recommandations
Cet article donne aux propriétaires de sites des conseils sur la façon d'optimiser leur budget d'exploration :
- Réduire l'utilisation des ressources: utilisez moins de ressources pour créer une bonne expérience utilisateur. Cela permet d'économiser le budget d'exploration lors du rendu d'une page.
- Héberger les ressources séparément: placez les ressources sur un nom d'hôte différent, comme un CDN ou un sous-domaine. Cela peut aider à alléger le fardeau du budget d’exploration de votre site principal.
- Utilisez judicieusement les paramètres de contournement du cache: Soyez prudent avec les paramètres de contournement du cache. La modification des URL des ressources peut obliger Google à les revérifier, même si le contenu est le même. Cela peut gaspiller votre budget d'exploration.
En outre, Google prévient que bloquer l'exploration des ressources avec robots.txt peut être risqué.
Si Google ne peut pas accéder à une ressource nécessaire au rendu, il peut avoir du mal à obtenir le contenu de la page et à le classer correctement.
En rapport: 9 conseils pour optimiser le budget d'exploration pour le référencement
Outils de surveillance
L'équipe Search Central affirme que le meilleur moyen de voir quelles ressources Googlebot explore est de vérifier les journaux d'accès bruts d'un site.
Vous pouvez identifier Googlebot par son adresse IP à l'aide des plages publiées dans la documentation du développeur de Google.
Pourquoi c'est important
Cet article clarifie trois points clés qui ont un impact sur la façon dont Google recherche et traite le contenu de votre site :
- La gestion des ressources affecte directement votre budget d'exploration, donc l'hébergement de scripts et de styles sur des CDN peut aider à le préserver.
- Google met en cache les ressources pendant 30 jours quels que soient vos paramètres de cache HTTP, ce qui permet de conserver votre budget d'exploration.
- Le blocage de ressources critiques dans robots.txt peut se retourner contre Google en empêchant Google de restituer correctement vos pages.
Comprendre ces mécanismes aide les référenceurs et les développeurs à prendre de meilleures décisions concernant l'hébergement et l'accessibilité des ressources – des choix qui ont un impact direct sur la façon dont Google peut explorer et indexer leurs sites.
En rapport: Google avertit : les paramètres d'URL créent des problèmes d'exploration