Google explique les raisons pour lesquelles les pages explorées ne sont pas indexées

En mai dernier, Gary Illyes de Google a accordé une interview à la conférence SERP Conf 2024 en Bulgarie et a répondu à une question sur les causes de l'exploration mais non indexation, en proposant plusieurs raisons utiles pour déboguer et corriger cette erreur.

Bien que l'interview ait eu lieu en mai, la vidéo de l'interview n'a pas été suffisamment médiatisée et peu de gens l'ont réellement regardée. Je n'en ai entendu parler que parce que la toujours géniale Olesia Korobka (@Giridja) a récemment attiré l'attention sur l'interview dans une publication Facebook.

Même si l’entretien a eu lieu en mai, les informations sont toujours d’actualité et utiles.

Raison de l'exploration – Actuellement non indexé

Exploré actuellement non indexé est une référence à un rapport d'erreur dans le rapport d'indexation des pages de Google Search Console qui avertit qu'une page a été explorée par Google mais n'a pas été indexée.

Lors d'une interview en direct, quelqu'un a posé une question demandant :

« Le fait qu’une page soit explorée mais non indexée peut-il être le résultat d’une trop grande similitude avec d’autres éléments déjà indexés ?

Alors Google suggère-t-il qu’il existe déjà suffisamment d’autres choses et que vos choses ne sont pas assez uniques ?

La documentation de la Search Console de Google ne fournit pas de réponse quant à la raison pour laquelle Google peut explorer une page et ne pas l'indexer, c'est donc une question légitime.

Gary Illyes a répondu que oui, l'une des raisons pourrait être qu'il existe déjà d'autres contenus similaires. Mais il ajoute qu'il existe aussi d'autres raisons.

Il a répondu:

« Oui, cela pourrait être une chose que cela peut signifier. L'exploration mais non indexation est une chose, l'idéal serait de diviser cette catégorie en morceaux plus granulaires, mais c'est très difficile en raison de la façon dont les données existent en interne.

Cela peut être un tas de choses, l'élimination des doublons est l'une de ces choses, où nous explorons la page, puis nous décidons de ne pas l'indexer parce qu'il existe déjà une version de celle-ci ou une version extrêmement similaire de ce contenu disponible dans notre index et elle a de meilleurs signaux.

Mais oui, mais ça peut être plusieurs choses.

La qualité générale du site peut avoir un impact sur l'indexation

Gary a ensuite attiré l'attention sur une autre raison pour laquelle Google pourrait explorer mais choisir de ne pas indexer un site, en disant qu'il pourrait s'agir d'un problème de qualité du site.

Illyes continua alors sa réponse :

« La qualité générale du site peut également avoir une grande influence sur le nombre d'URL explorées mais non indexées que vous voyez dans la Search Console. Si le nombre de ces URL est très élevé, cela peut indiquer des problèmes de qualité générale.

Et j'ai vu cela souvent depuis février, où soudainement nous avons décidé que nous indexerions une grande quantité d'URL sur un site simplement parce que… notre perception du site a changé.

Autres raisons pour lesquelles les données explorées ne sont pas indexées

Gary a ensuite proposé d'autres raisons pour lesquelles les URL pourraient être explorées mais pas indexées, affirmant qu'il se pourrait que la perception du site par Google ait changé, mais qu'il pourrait s'agir d'un problème technique.

Gary a expliqué :

« … Et une possibilité est que lorsque vous voyez ce nombre augmenter, que la perception de… la perception de Google du site a changé, cela pourrait être une chose.

Mais il se peut aussi qu'une erreur se soit produite, par exemple sur le site, et que la même page ait été diffusée à chaque URL du site. Cela peut également être l'une des raisons pour lesquelles ce chiffre grimpe.

Donc oui, il pourrait y avoir beaucoup de choses.

Plats à emporter

Gary a fourni des réponses qui devraient aider à comprendre pourquoi une page Web peut être explorée mais pas indexée par Google.

Le contenu est similaire au contenu déjà classé dans les pages de résultats des moteurs de recherche (SERP)
Le même contenu existe exactement sur un autre site qui a de meilleurs signaux
Problèmes généraux de qualité du site
Problèmes techniques

Bien qu'Illyes n'ait pas précisé ce qu'il voulait dire à propos d'un autre site avec de meilleurs signaux, je suis presque certain qu'il décrit le scénario dans lequel un site syndique son contenu sur un autre site et Google choisit de classer l'autre site pour le contenu et non l'éditeur d'origine.

Regardez Gary répondre à cette question à la 9e minute de l'interview enregistrée :