Google met en garde contre les « trous noirs » de contenu en double causés par des pages d'erreur

Le podcast « Search Off the Record » de Google a récemment mis en évidence un problème de référencement qui peut faire disparaître des pages Web des résultats de recherche.

Dans le dernier épisode, Allan Scott, membre de l'équipe de recherche Google, a discuté des « trous noirs en maraude » formés en regroupant des pages d'erreur d'apparence similaire.

Le système de Google peut accidentellement regrouper des pages d'erreur qui se ressemblent, ce qui entraîne l'inclusion de pages normales dans ces groupes.

Cela signifie que Google ne peut plus explorer ces pages, ce qui peut entraîner leur désindexation, même après avoir corrigé les erreurs.

Le podcast explique comment cela se produit, ses effets sur le trafic de recherche et comment les propriétaires de sites Web peuvent empêcher la perte de leurs pages.

Comment Google gère le contenu en double

Pour comprendre les trous noirs de contenu, vous devez d'abord savoir comment Google gère le contenu en double.

Scott explique que cela se produit en deux étapes :

Regroupement: Google regroupe les pages qui ont un contenu identique ou très similaire.
Canonisation: Google choisit ensuite la meilleure URL de chaque groupe.

Après le clustering, Google arrête de réexplorer ces pages. Cela économise des ressources et évite une indexation inutile du contenu en double.

Comment les pages d'erreur créent des trous noirs

Le problème du trou noir se produit lorsque les pages d’erreur se regroupent parce qu’elles ont un contenu similaire, comme les messages génériques « Page non trouvée ». Les pages normales comportant des erreurs occasionnelles ou des pannes temporaires peuvent rester bloquées dans ces groupes d'erreurs.

Le système de duplication empêche la réexploration des pages au sein d'un cluster. Il est donc difficile pour les pages regroupées par erreur d'échapper au « trou noir », même après avoir corrigé les erreurs initiales. En conséquence, ces pages peuvent être désindexées, entraînant une perte de trafic de recherche organique.

Scott a expliqué :

« Seules les choses qui se situent tout en haut du cluster sont susceptibles d’en ressortir. Là où cela m'inquiète vraiment, ce sont les sites avec des erreurs passagères… Si celles-ci ne parviennent pas à être récupérées, elles pourraient interrompre votre rendu, auquel cas nous examinerons votre page et penserons qu'elle est cassée.

Comment éviter les trous noirs

Pour éviter les problèmes liés aux trous noirs de contenu en double, Scott a partagé les conseils suivants :

Utilisez les bons codes d'état HTTP: Pour les pages d'erreur, utilisez les codes d'état appropriés (comme 404, 403 et 503) au lieu d'un état 200 OK. Seules les pages marquées 200 OK peuvent être regroupées.
Créez du contenu unique pour les pages d'erreur personnalisées: Si vous avez des pages d'erreur personnalisées qui utilisent un statut 200 OK (courant dans les applications à page unique), assurez-vous que ces pages contiennent un contenu spécifique pour empêcher le regroupement. Par exemple, incluez le code et le nom de l'erreur dans le texte.
Attention avec les balises Noindex: N'utilisez pas de balises noindex sur les pages d'erreur, sauf si vous souhaitez qu'elles soient définitivement supprimées des résultats de recherche. Cette balise indique fortement que vous souhaitez supprimer les pages, plus que l'utilisation de codes d'état d'erreur.

Suivre ces conseils peut aider à garantir que les pages normales ne soient pas accidentellement mélangées avec des pages d'erreur, en les conservant dans l'index de Google.

Vérifier régulièrement la couverture d'exploration et l'indexation de votre site peut vous aider à détecter rapidement les problèmes de duplication.

En résumé

Le podcast « Search Off the Record » de Google a mis en évidence un problème potentiel de référencement où les pages d'erreur peuvent être considérées comme du contenu en double. Cela peut entraîner le regroupement de pages normales avec des erreurs et leur suppression de l'index de Google, même si les erreurs sont corrigées.

Pour éviter les problèmes de contenu en double, les propriétaires de sites Web doivent :

Utilisez les codes d'état HTTP corrects pour les pages d'erreur.
Assurez-vous que les pages d’erreur personnalisées ont un contenu unique.
Surveillez la couverture d'exploration et l'indexation de leur site.

Suivre les meilleures pratiques techniques de référencement est essentiel pour maintenir de bonnes performances de recherche, comme le souligne l'équipe de recherche de Google.

Écoutez la discussion complète dans la vidéo ci-dessous :