John Mueller, avocat de la recherche Google, a répondu à une question sur l’erreur « Page indexée sans contenu » dans la Search Console, expliquant que le problème provenait généralement du blocage du serveur ou du CDN plutôt que de JavaScript.
L’échange a eu lieu sur Reddit après qu’un utilisateur a signalé que sa page d’accueil était passée de la position 1 à la position 15 suite à l’apparition de l’erreur.
Ce qui se passe?
Mueller a clarifié une idée fausse courante sur la cause de « Page indexée sans contenu » dans la Search Console.
Mueller a écrit :
« Habituellement, cela signifie que votre serveur/CDN empêche Google de recevoir du contenu. Cela n’est lié à rien de JavaScript. Il s’agit généralement d’un blocage de niveau assez bas, parfois basé sur l’adresse IP de Googlebot, il sera donc probablement impossible de tester en dehors des outils de test de la Search Console. »
L’utilisateur de Reddit avait déjà tenté plusieurs étapes de diagnostic. Ils ont exécuté des commandes curl pour récupérer la page en tant que Googlebot, vérifié le blocage de JavaScript et testé avec le test de résultats enrichis de Google. Les outils d’inspection de bureau renvoyaient des erreurs « Quelque chose s’est mal passé » alors que les outils mobiles fonctionnaient normalement.
Mueller a noté que les méthodes de test externes standard ne détecteront pas ces blocs.
Il a ajouté :
« De plus, cela signifierait que les pages de votre site commenceront à disparaître de l’index (bientôt ou déjà), c’est donc une bonne idée de traiter cela comme quelque chose d’urgent. »
Le site concerné utilise Webflow comme CMS et Cloudflare comme CDN. L’utilisateur a signalé que la page d’accueil avait été indexée normalement sans aucune modification récente du site.
Pourquoi c’est important
J’ai abordé ce type de problème à plusieurs reprises au fil des ans. Les configurations du CDN et du serveur peuvent bloquer Googlebot par inadvertance sans affecter les utilisateurs réguliers ou les outils de test standard. Les blocs ciblent souvent des plages d’adresses IP spécifiques, ce qui signifie que les tests curl et les robots d’exploration tiers ne reproduiront pas le problème.
J’ai couvert le moment où Google a ajouté pour la première fois « indexé sans contenu » au rapport de couverture de l’index. La documentation d’aide de Google de l’époque indiquait que le statut signifiait « pour une raison quelconque, Google n’a pas pu lire le contenu » et précisait « il ne s’agit pas d’un cas de blocage de robots.txt ». La cause sous-jacente est presque toujours quelque chose de plus bas dans la pile.
Le détail Cloudflare a attiré mon attention. J’ai signalé un schéma similaire lorsque Mueller a informé un propriétaire de site dont l’exploration s’était arrêtée simultanément sur plusieurs domaines. Tous les sites concernés utilisaient Cloudflare, et Mueller a désigné « l’infrastructure partagée » comme étant le coupable probable. Le modèle ici semble familier.
Plus récemment, j’ai couvert une panne de Cloudflare en novembre qui a déclenché des pics 5xx affectant l’exploration. C’était un incident largement répandu. Ce cas semble être quelque chose de plus ciblé, probablement une règle de protection contre les robots ou un paramètre de pare-feu qui traite les adresses IP de Googlebot différemment du reste du trafic.
L’outil d’inspection d’URL de la Search Console et le test d’URL en direct restent les principaux moyens d’identifier ces blocages. Lorsque ces outils renvoient des erreurs alors que les tests externes réussissent, un blocage au niveau du serveur devient la cause probable. Mueller a fait valoir un point similaire en août en conseillant sur les baisses du taux d’exploration, suggérant aux propriétaires de sites de « vérifier ce qui s’est réellement passé » et de vérifier « si c’est un CDN qui a réellement bloqué Googlebot ».
En rapport: 8 problèmes courants de Robots.txt et comment les résoudre
Regarder vers l’avenir
Si vous voyez l’erreur « Page indexée sans contenu », vérifiez les configurations du CDN et du serveur pour les règles qui affectent les plages IP de Googlebot. Google publie les adresses IP de ses robots d’exploration, ce qui peut aider à identifier si les règles de sécurité les ciblent.
L’outil d’inspection d’URL de la Search Console est le moyen le plus fiable de voir ce que Google reçoit lors de l’exploration d’une page. Les outils de test externes ne détecteront pas les blocages IP qui affectent uniquement l’infrastructure de Google.
Pour les utilisateurs Cloudflare en particulier, vérifiez les paramètres de gestion des robots, les règles de pare-feu et tous les contrôles d’accès basés sur IP. La configuration peut avoir changé via des mises à jour automatiques ou de nouveaux paramètres par défaut plutôt que des modifications manuelles.
Voir aussi: Google explique les raisons pour lesquelles l’exploration n’est pas indexée