Google rappelle aux sites Web d'utiliser Robots.txt pour bloquer les URL d'action

Dans un article sur LinkedIn, Gary Illyes, analyste chez Google, a réitéré les conseils de longue date destinés aux propriétaires de sites Web : utilisez le fichier robots.txt pour empêcher les robots d'exploration d'accéder aux URL qui déclenchent des actions telles que l'ajout d'articles aux paniers ou aux listes de souhaits.

Illyes a souligné la plainte courante concernant la surcharge inutile du trafic des robots sur les serveurs, provenant souvent des robots des moteurs de recherche qui explorent les URL destinées aux actions des utilisateurs.

Il a écrit:

« En regardant ce que nous explorons à partir des sites dans les plaintes, il s'agit bien trop souvent d'URL d'action telles que « ajouter au panier » et « ajouter à la liste de souhaits ». Ceux-ci sont inutiles pour les robots d'exploration et vous ne souhaitez probablement pas qu'ils soient explorés.

Pour éviter cette charge inutile du serveur, Illyes a conseillé de bloquer l'accès dans le fichier robots.txt pour les URL avec des paramètres tels que «?Ajouter au panier » ou « ?ajouter à la liste de souhaits.»

A titre d’exemple, il suggère :

« Si vous avez des URL telles que :
https://example.com/product/scented-candle-v1?add_to_cart
et
https://example.com/product/scented-candle-v1?add_to_wishlist

Vous devriez probablement ajouter une règle d'interdiction pour eux dans votre fichier robots.txt.

Bien que l'utilisation de la méthode HTTP POST puisse également empêcher l'exploration de ces URL, les robots d'exploration d'Illyes peuvent toujours effectuer des requêtes POST, le fichier robots.txt reste donc conseillé.

Renforcer les meilleures pratiques vieilles de plusieurs décennies

Alan Perkins, qui a participé au fil de discussion, a souligné que ces lignes directrices font écho aux normes Web introduites dans les années 1990 pour les mêmes raisons.

Citant un document de 1993 intitulé « Une norme pour l’exclusion des robots » :

« En 1993 et 1994, il y a eu des occasions où des robots ont visité des serveurs WWW où ils n'étaient pas les bienvenus pour diverses raisons… des robots ont traversé des parties de serveurs WWW qui n'étaient pas adaptées, par exemple des arbres virtuels très profonds, des informations dupliquées, des informations temporaires ou des informations temporaires. des scripts cgi avec des effets secondaires (comme le vote).

La norme robots.txt, proposant des règles pour restreindre l'accès des robots d'exploration bien élevés, est apparue comme une solution « consensuelle » parmi les acteurs du Web dès 1994.

Obéissance et exceptions

Illyes a affirmé que les robots d'exploration de Google obéissent pleinement aux règles du fichier robots.txt, à de rares exceptions près, soigneusement documentées pour les scénarios impliquant des « récupérations déclenchées par l'utilisateur ou contractuelles ».

Cette adhésion au protocole robots.txt est un pilier des politiques d'exploration du Web de Google.

Pourquoi SEJ s'en soucie

Même si ces conseils peuvent paraître rudimentaires, la réémergence de cette bonne pratique vieille de plusieurs décennies souligne sa pertinence.

En tirant parti de la norme robots.txt, les sites peuvent aider à empêcher les robots d'exploration trop zélés d'accaparer la bande passante avec des requêtes improductives.

Comment cela peut vous aider

Que vous dirigiez un petit blog ou une grande plateforme de commerce électronique, suivre les conseils de Google pour exploiter le fichier robots.txt pour bloquer l'accès des robots aux URL d'action peut vous aider de plusieurs manières :

Charge de serveur réduite: vous pouvez réduire les requêtes inutiles du serveur et l'utilisation de la bande passante en empêchant les robots d'exploration d'accéder aux URL qui invoquent des actions telles que l'ajout d'articles aux paniers ou aux listes de souhaits.
Efficacité améliorée des chenilles: Donner des règles plus explicites dans votre fichier robots.txt sur les URL que les robots d'exploration doivent éviter peut conduire à une exploration plus efficace des pages/contenus que vous souhaitez indexer et classer.
Meilleure expérience utilisateur: Avec des ressources de serveur concentrées sur les actions réelles des utilisateurs plutôt que sur des visites inutiles des robots, les utilisateurs finaux bénéficieront probablement de temps de chargement plus rapides et de fonctionnalités plus fluides.
Restez aligné sur les normes: La mise en œuvre de ces directives met votre site en conformité avec les normes de protocole robots.txt largement adoptées, qui constituent les meilleures pratiques du secteur depuis des décennies.

Revoir les directives robots.txt pourrait être une étape simple mais efficace pour les sites Web cherchant à exercer davantage de contrôle sur l'activité des robots.

Le message d'Illyes indique que les anciennes règles robots.txt restent pertinentes dans notre environnement Web moderne.