Google répond au site qui a perdu les rangs après la rampe de Googlebot DDOS

John Mueller de Google a répondu à une question sur un site qui a reçu des millions de demandes Googlebot de pages qui n'existent pas, avec une URL inexistante recevant plus de deux millions de visites, essentiellement des demandes de page de niveau DDOS. Les préoccupations de l'éditeur concernant le budget et les classements ont apparemment été réalisées, car le site a ensuite connu une baisse de la visibilité de la recherche.

Pages noindex retirées et converties en 410

Le code de réponse 410 Gone Server appartient aux codes de réponse Family 400 qui indiquent qu'une page n'est pas disponible. La réponse 404 signifie qu'une page n'est pas disponible et ne fait aucune réclamation pour savoir si l'URL reviendra à l'avenir, il indique simplement que la page n'est pas disponible.

Le code d'état 410 Gone signifie que la page a disparu et ne reviendra probablement jamais. Contrairement au code d'état 404, le 410 signale le navigateur ou le robot que le statut manquant de la ressource est intentionnel et que tout lien vers la ressource doit être supprimé.

La personne qui posait la question a suivi une question qu'il a publiée il y a trois semaines sur Reddit où elle a noté qu'elle avait environ 11 millions d'URL qui n'aurait pas dû être découvrable qu'elle avait entièrement supprimé et a commencé à servir un code de réponse 410. Après un mois et demi, Google a continué à revenir à la recherche des pages manquantes. Ils ont partagé leur inquiétude concernant le budget d'exploration et les impacts ultérieurs sur leur classement en conséquence.

Mueller à l'époque les a transmis à une page d'assistance Google.

Classement la perte alors que Google continue de frapper le site aux niveaux DDOS

Trois semaines plus tard, les choses ne se sont pas améliorées et ils ont affiché une question de suivi notant qu'ils ont reçu plus de cinq millions de demandes de pages qui n'existent pas. Ils ont affiché une URL réelle dans leur question, mais je l'ai anonymisée, sinon c'est mot pour mot.

La personne a demandé:

«Googlebot continue de ramper agressivement une seule URL (avec des chaînes de requête), même si elle renvoie un statut de 410 (disparu) depuis environ deux mois maintenant.

Au cours des 30 derniers jours, nous avons vu environ 5,4 millions de demandes de Googlebot. Parmi ceux-ci, environ 2,4 millions étaient dirigés contre cette URL:
https://example.net/software/virtual-dj/ avec la chaîne de requête en fonctionnalité.

Nous avons également vu une baisse significative de notre visibilité sur Google pendant cette période, et je ne peux pas m'empêcher de me demander s'il y a une connexion – quelque chose se sent juste éteint. La page affectée est:
https://example.net/software/virtual-dj/?feature=…

La raison pour laquelle Google a découvert toutes ces URL en premier lieu est que nous les avons involontairement exposés dans une charge utile JSON générée par Next.js – ils n'étaient pas des liens réels sur le site.

Nous avons changé le fonctionnement de nos «fonctionnalités multiples» (en utilisant?

Serait-il problématique d'ajouter quelque chose comme ça à nos robots.txt?

Désactiver: / logiciel / virtual-dj /? Fonctionnalité = *

Objectif principal: empêcher cet excession excessive d'inondation de nos journaux et potentiellement déclencher des effets secondaires involontaires. »

John Mueller de Google a confirmé que c'était le comportement normal de Google de continuer à vérifier si une page manquante est revenue. Il s'agit du comportement par défaut de Google en fonction de l'expérience que les éditeurs peuvent faire des erreurs et ils reviendront donc périodiquement pour vérifier si la page a été restaurée. Cela est censé être une fonctionnalité utile pour les éditeurs qui pourraient supprimer involontairement une page Web.

Mueller a répondu:

« Google tente de recrraquer des pages qui existaient autrefois depuis très longtemps, et si vous en avez beaucoup, vous en verrez probablement plus. Ce n'est pas un problème – c'est bien de faire disparaître les pages, même si ce sont des tonnes.

ATTENTION: SEO technique à venir

Cette partie suivante est l'endroit où le référencement devient technique. Mueller prévient que la solution proposée pour ajouter un robots.txt pourrait interrompre par inadvertance le rendu pour des pages qui ne sont pas censées être manquantes.

Il conseille essentiellement la personne qui se demande la question:

  • Vérifiez que la fonctionnalité = URL ne sont pas du tout utilisées dans les charges utiles de code frontal ou JSON qui alimentent les pages importantes.
  • Utilisez Chrome Devtools pour simuler ce qui se passe si ces URL sont bloquées – pour prendre la rupture tôt.
  • Surveiller la console de recherche pour les 404 Soft pour repérer tout impact involontaire sur les pages qui doivent être indexées.

John Mueller a continué:

«La principale chose que je surveillerais est que ce sont vraiment tous les rendements 404/410, et pas que certains d'entre eux soient utilisés par quelque chose comme JavaScript sur des pages que vous voulez indexer (puisque vous avez mentionné la charge utile JSON).

Il est vraiment difficile de reconnaître lorsque vous interdire la rampe d'une ressource intégrée (qu'elle soit directement intégrée dans la page ou chargée à la demande) – parfois la page qui le fait référence cesse de rendu et ne peut pas être indexée du tout.

Si vous avez des pages rendues côté client JavaScript, j'essaierais de savoir où les URL étaient référencées (si vous le pouvez) et bloquer les URL dans Chrome Dev Tools pour voir ce qui se passe lorsque vous chargez la page.

Si vous ne pouvez pas comprendre où ils étaient, je remanierais une partie d'entre eux et surveillerais les erreurs Soft-404 dans la console de recherche pour voir si quelque chose se produit visiblement là-bas.

Si vous n'utilisez pas le rendu côté client JavaScript, vous pouvez probablement ignorer ce paragraphe :-). « 

La différence entre la raison évidente et la cause réelle

John Mueller de Google a raison de suggérer un diagnostic plus profond pour exclure les erreurs de la part de l'éditeur. Une erreur de l'éditeur a commencé la chaîne d'événements qui a conduit à l'indexation des pages par rapport aux souhaits de l'éditeur. Il est donc raisonnable de demander à l'éditeur de vérifier s'il peut y avoir une raison plus plausible de tenir compte d'une perte de visibilité de la recherche. Il s'agit d'une situation classique où une raison évidente n'est pas nécessairement la bonne raison. Il y a une différence entre être une raison évidente et être la cause réelle. Donc, la suggestion de Mueller de ne pas abandonner la recherche de la cause est un bon conseil.

Lisez la discussion originale ici.