Pourquoi Google indexe les pages Web bloquées

John Mueller de Google a répondu à une question sur les raisons pour lesquelles Google indexe les pages dont l'exploration est interdite par le fichier robots.txt et pourquoi il est prudent d'ignorer les rapports de la Search Console associés à ces explorations.

Trafic de robot vers les URL de paramètres de requête

La personne qui a posé la question a documenté que des robots créaient des liens vers des URL de paramètres de requête inexistants (?q=xyz) vers des pages avec des balises méta noindex qui sont également bloquées dans le fichier robots.txt. Ce qui a suscité la question est que Google explore les liens vers ces pages, qui sont bloqués par le fichier robots.txt (sans voir de balise méta robots noindex), puis signalés dans la Search Console de Google comme « Indexés, mais bloqués par le fichier robots.txt ».

La personne a posé la question suivante :

« Mais la grande question est la suivante : pourquoi Google indexerait-il des pages alors qu'il ne peut même pas voir le contenu ? Quel est l'avantage de cela ? »

John Mueller, de Google, a confirmé que s'ils ne peuvent pas explorer la page, ils ne peuvent pas voir la balise méta noindex. Il fait également une mention intéressante de l'opérateur site:search, conseillant d'ignorer les résultats car les utilisateurs « moyens » ne verront pas ces résultats.

Il a écrit :

« Oui, vous avez raison : si nous ne pouvons pas explorer la page, nous ne pouvons pas voir le noindex. Cela dit, si nous ne pouvons pas explorer les pages, il n'y a pas grand-chose à indexer. Ainsi, même si vous pouvez voir certaines de ces pages avec une requête site:-query ciblée, l'utilisateur moyen ne les verra pas, donc je ne m'en soucierais pas. Noindex est également acceptable (sans interdiction de robots.txt), cela signifie simplement que les URL finiront par être explorées (et se retrouveront dans le rapport Search Console pour exploré/non indexé — aucun de ces statuts ne pose de problèmes pour le reste du site). L'important est de ne pas les rendre explorables + indexables. »

En rapport: Google rappelle aux sites Web d'utiliser le fichier robots.txt pour bloquer les URL d'action

À retenir :

1. La réponse de Mueller confirme les limites de l'utilisation de l'opérateur de recherche avancée Site:search pour des raisons de diagnostic. L'une de ces raisons est qu'il n'est pas connecté à l'index de recherche habituel, c'est un élément totalement distinct.

John Mueller de Google a commenté l'opérateur de recherche de sites en 2021 :

« La réponse courte est qu’une requête de site n’est pas censée être complète, ni utilisée à des fins de diagnostic.

Une requête de site est un type de recherche spécifique qui limite les résultats à un site Web donné. Il s'agit simplement du mot « site », de deux points, puis du domaine du site Web.

Cette requête limite les résultats à un site Web spécifique. Elle n'a pas vocation à être une collection exhaustive de toutes les pages de ce site Web.

L'opérateur du site ne reflète pas l'index de recherche de Google, ce qui le rend peu fiable pour comprendre les pages indexées ou non indexées par Google. Comme les autres opérateurs de recherche avancée de Google, ils ne sont pas fiables en tant qu'outils pour comprendre quoi que ce soit lié à la façon dont Google classe ou indexe le contenu.

2. La balise Noindex sans utiliser de fichier robots.txt convient parfaitement à ce genre de situations où un robot crée un lien vers des pages inexistantes qui sont découvertes par Googlebot.

Les balises Noindex sur les pages qui ne sont pas bloquées par une interdiction dans le fichier robots.txt permettent à Google d'explorer la page et de lire la directive noindex, garantissant ainsi que la page n'apparaîtra pas dans l'index de recherche, ce qui est préférable si l'objectif est de garder une page hors de l'index de recherche de Google.

3. Les URL avec la balise noindex généreront une entrée « explorée/non indexée » dans la Search Console et celles-ci n'auront pas d'effet négatif sur le reste du site Web.

Lisez la question et la réponse sur LinkedIn :

Pourquoi Google indexerait-il des pages alors qu'il ne peut même pas voir le contenu ?