Google publie de nouveaux robots.txt explicateur

Google a publié un nouveau rafraîchissement Robots.txt expliquant comment Robots.txt permet aux éditeurs et aux réseaux SEO de contrôler les robots de recherche et d'autres robots (qui obéissent à robots.txt). La documentation comprend des exemples de blocage des pages spécifiques (comme des paniers-ports), de restreindre certains robots et de gérer le comportement rampant avec des règles simples.

Des bases aux avancés

La nouvelle documentation offre une introduction rapide à ce qu'est Robots.txt et progresse progressivement vers une couverture de plus en plus avancée de ce que les éditeurs et les SEO peuvent faire avec Robots.txt et comment cela leur profite.

Le point principal de la première partie du document est de présenter Robots.txt en tant que protocole Web stable avec une histoire de 30 ans largement soutenue par les moteurs de recherche et autres robots.

Google Search Console rapportera un message d'erreur 404 si le robots.txt est manquant. Il est normal que cela se produise, mais si cela vous dérange de voir que dans le GSC, vous pouvez attendre 30 jours et l'avertissement tombera. Un alternatif consiste à créer un fichier robots.txt vierge qui est également acceptable par Google.

La nouvelle documentation de Google explique:

« Vous pouvez laisser votre fichier robots.txt vide (ou en avoir un du tout) si votre site entier peut être rampé, ou si vous pouvez ajouter des règles pour gérer la rampe. »

De là, il couvre les bases comme les règles personnalisées pour restreindre des pages ou des sections spécifiques.

Les utilisations avancées de robots.txt couvre ces capacités:

  • Peut cibler des robots spécifiques avec différentes règles.
  • Permet de bloquer les modèles d'URL comme les PDF ou les pages de recherche.
  • Permet un contrôle granulaire sur des bots spécifiques.
  • Prend en charge les commentaires pour la documentation interne.

La nouvelle documentation se termine en décrivant à quel point il est simple de modifier le fichier robots.txt (c'est un fichier texte avec des règles simples), donc tout ce dont vous avez besoin est un éditeur de texte simple. De nombreux systèmes de gestion de contenu ont un moyen de le modifier et il existe des outils disponibles pour les tests si le fichier robots.txt utilise la syntaxe correcte.

Lisez la nouvelle documentation ici:

Rabotage des robots: robots.txt – un moyen flexible de contrôler comment les machines explorent votre site Web