8 problèmes courants de Robots.txt et comment les résoudre

Robots.txt est un outil utile et puissant pour indiquer aux robots des moteurs de recherche comment vous souhaitez qu’ils explorent votre site Web. La gestion de ce fichier est un élément clé d’un bon référencement technique.

Ce n’est pas tout-puissant – selon les propres mots de Google, « ce n’est pas un mécanisme permettant de garder une page Web hors de Google » – mais il peut aider à empêcher votre site ou votre serveur d’être surchargé par les requêtes des robots.

Si vous disposez de ce bloc d’exploration sur votre site, vous devez être certain qu’il est utilisé correctement.

Ceci est particulièrement important si vous utilisez des URL dynamiques ou d’autres méthodes générant un nombre théoriquement infini de pages.

Dans ce guide, nous examinerons certains des problèmes les plus courants liés au fichier robots.txt, leur impact sur votre site Web et votre présence dans les recherches, et comment résoudre ces problèmes si vous pensez qu’ils se sont produits.

Mais d’abord, jetons un coup d’œil rapide au fichier robots.txt et à ses alternatives.

Qu’est-ce que Robots.txt ?

Robots.txt utilise un format de fichier texte brut et est placé dans le répertoire racine de votre site Web.

Il doit se trouver dans le répertoire le plus haut de votre site. Les moteurs de recherche l’ignoreront simplement si vous le placez dans un sous-répertoire.

Malgré sa grande puissance, robots.txt est souvent un document relativement simple et un fichier robots.txt de base peut être créé en quelques secondes à l’aide d’un éditeur tel que le Bloc-notes. Vous pouvez vous amuser avec eux et ajouter des messages supplémentaires que les utilisateurs pourront trouver.

Il existe d’autres moyens d’atteindre certains des mêmes objectifs pour lesquels robots.txt est habituellement utilisé.

Les pages individuelles peuvent inclure une balise méta robots dans le code de la page lui-même.

Vous pouvez également utiliser l’en-tête HTTP X-Robots-Tag pour influencer la façon dont (et si) le contenu est affiché dans les résultats de recherche.

Que peut faire Robots.txt ?

Robots.txt peut obtenir une variété de résultats sur une gamme de différents types de contenu :

Les pages Web peuvent être bloquées pour être explorées.

Ils peuvent toujours apparaître dans les résultats de recherche, mais ils n’auront pas de description textuelle. Le contenu non HTML de la page ne sera pas non plus exploré.

Les fichiers multimédias peuvent être empêchés d’apparaître dans les résultats de recherche Google.

Cela inclut les images, les vidéos et les fichiers audio.

Si le fichier est public, il « existera » toujours en ligne et pourra être consulté et lié, mais ce contenu privé n’apparaîtra pas dans les recherches Google.

Les fichiers de ressources comme les scripts externes sans importance peuvent être bloqués.

Mais cela signifie que si Google explore une page qui nécessite le chargement de cette ressource, le robot Googlebot « verra » une version de la page comme si cette ressource n’existait pas, ce qui peut affecter l’indexation.

Vous ne pouvez pas utiliser robots.txt pour empêcher complètement une page Web d’apparaître dans les résultats de recherche de Google.

Pour y parvenir, vous devez utiliser une méthode alternative, comme l’ajout d’une balise méta noindex en tête de page.

À quel point les erreurs Robots.txt sont-elles dangereuses ?

Une erreur dans le fichier robots.txt peut avoir des conséquences inattendues, mais ce n’est souvent pas la fin du monde.

La bonne nouvelle est qu’en réparant votre fichier robots.txt, vous pouvez récupérer de toute erreur rapidement et (généralement) intégralement.

Les conseils de Google aux développeurs Web indiquent ceci au sujet des erreurs robots.txt :

« Les robots d’exploration Web sont généralement très flexibles et ne se laisseront généralement pas influencer par des erreurs mineures dans le fichier robots.txt. En général, le pire qui puisse arriver est que des erreurs [or] les directives non prises en charge seront ignorées.

Gardez cependant à l’esprit que Google ne peut pas lire dans les pensées lors de l’interprétation d’un fichier robots.txt ; nous devons interpréter le fichier robots.txt que nous avons récupéré. Cela dit, si vous avez connaissance de problèmes dans votre fichier robots.txt, ils sont généralement faciles à résoudre.

8 erreurs courantes dans Robots.txt

Robots.txt ne se trouve pas dans le répertoire racine.
Mauvaise utilisation des caractères génériques.
Noindex Dans Robots.txt.
Scripts et feuilles de style bloqués.
Aucune URL de plan de site.
Accès aux sites de développement.
Utilisation d’URL absolues.
Éléments obsolètes et non pris en charge.

Si votre site Web se comporte étrangement dans les résultats de recherche, votre fichier robots.txt est un bon endroit pour rechercher les erreurs, les erreurs de syntaxe et les règles excessives.

Examinons plus en détail chacune des erreurs ci-dessus et voyons comment vous assurer que vous disposez d’un fichier robots.txt valide.

1. Robots.txt ne se trouve pas dans le répertoire racine

Les robots de recherche ne peuvent découvrir le fichier que s’il se trouve dans votre dossier racine.

C’est pourquoi il ne devrait y avoir qu’une barre oblique entre le .com (ou domaine équivalent) de votre site Web et le nom de fichier « robots.txt », dans l’URL de votre fichier robots.txt.

S’il y a un sous-dossier, votre fichier robots.txt n’est probablement pas visible par les robots de recherche et votre site Web se comporte probablement comme s’il n’y avait aucun fichier robots.txt.

Pour résoudre ce problème, déplacez votre fichier robots.txt vers votre répertoire racine.

Il convient de noter que cela nécessitera un accès root à votre serveur.

Certains systèmes de gestion de contenu téléchargent les fichiers dans un sous-répertoire « média » (ou quelque chose de similaire) par défaut, vous devrez donc peut-être contourner cela pour placer votre fichier robots.txt au bon endroit.

2. Mauvaise utilisation des caractères génériques

Robots.txt prend en charge deux caractères génériques :

Astérisque
– représente toutes les instances d’un personnage valide, comme un Joker dans un jeu de cartes. Signe dollar ($)

– désigne la fin d’une URL, vous permettant d’appliquer des règles uniquement à la dernière partie de l’URL, telle que l’extension du type de fichier.

Il est judicieux d’adopter une approche minimaliste en matière d’utilisation des caractères génériques, car ils peuvent potentiellement appliquer des restrictions à une partie beaucoup plus large de votre site Web.

Il est également relativement facile de finir par bloquer l’accès des robots depuis l’ensemble de votre site avec un astérisque mal placé.

Testez vos règles génériques à l’aide d’un outil de test robots.txt pour vous assurer qu’elles se comportent comme prévu. Soyez prudent avec l’utilisation de caractères génériques pour éviter de bloquer ou d’autoriser trop accidentellement.

3. Noindex dans Robots.txt

Celui-ci est plus courant sur les sites Web vieux de plus de quelques années.

Google a cessé d’obéir aux règles noindex dans les fichiers robots.txt depuis le 1er septembre 2019.

Si votre fichier robots.txt a été créé avant cette date ou contient des instructions noindex, vous verrez probablement ces pages indexées dans les résultats de recherche de Google.

La solution à ce problème consiste à implémenter une méthode alternative « noindex ».

Une option est la balise méta robots, que vous pouvez ajouter à l’en-tête de toute page Web que vous souhaitez empêcher l’indexation de Google.

4. Scripts et feuilles de style bloqués

Il peut sembler logique de bloquer l’accès des robots aux scripts JavaScript externes et aux feuilles de style en cascade (CSS).

N’oubliez cependant pas que Googlebot a besoin d’accéder aux fichiers CSS et JS pour « voir » correctement vos pages HTML et PHP.

Si vos pages se comportent étrangement dans les résultats de Google, ou s’il semble que Google ne les voit pas correctement, vérifiez si vous bloquez l’accès des robots aux fichiers externes requis.

Une solution simple consiste à supprimer la ligne de votre fichier robots.txt qui bloque l’accès.

Ou, si vous devez bloquer certains fichiers, insérez une exception qui rétablit l’accès aux CSS et JavaScript nécessaires.

5. Aucune URL de plan de site XML

Il s’agit plus de référencement qu’autre chose.

Vous pouvez inclure l’URL de votre plan de site XML dans votre fichier robots.txt.

Étant donné que c’est le premier endroit que Googlebot recherche lorsqu’il explore votre site Web, cela donne au robot une longueur d’avance pour connaître la structure et les pages principales de votre site.

Bien qu’il ne s’agisse pas strictement d’une erreur – car l’omission d’un plan de site ne devrait pas affecter négativement les fonctionnalités de base réelles et l’apparence de votre site Web dans les résultats de recherche – cela vaut toujours la peine d’ajouter l’URL de votre plan de site à robots.txt si vous souhaitez donner un coup de pouce à vos efforts de référencement. booster.

6. Accès aux sites de développement

Bloquer les robots d’exploration de votre site Web en direct est un non-non, tout comme leur permettre d’explorer et d’indexer vos pages qui sont encore en développement.

Il est recommandé d’ajouter une instruction d’interdiction au fichier robots.txt d’un site Web en construction afin que le grand public ne la voie pas avant la fin.

De même, il est crucial de supprimer l’instruction d’interdiction lorsque vous lancez un site Web terminé.

Oublier de supprimer cette ligne du fichier robots.txt est l’une des erreurs les plus courantes parmi les développeurs Web ; cela peut empêcher l’ensemble de votre site Web d’être exploré et indexé correctement.
User-Agent: *
Disallow: /
Si votre site de développement semble recevoir du trafic réel ou si votre site Web récemment lancé ne fonctionne pas du tout correctement dans les recherches, recherchez une règle universelle d’interdiction d’agent utilisateur dans votre fichier robots.txt :

Si vous voyez cela alors que vous ne devriez pas (ou ne le voyez pas quand vous devriez), apportez les modifications nécessaires à votre fichier robots.txt et vérifiez que l’apparence de recherche de votre site Web est mise à jour en conséquence.

7. Utiliser des URL absolues

Bien que l’utilisation d’URL absolues dans des éléments tels que les canoniques et le hreflang soit une bonne pratique, pour les URL du fichier robots.txt, l’inverse est vrai.

L’utilisation de chemins relatifs dans le fichier robots.txt est l’approche recommandée pour indiquer les parties d’un site qui ne doivent pas être accessibles aux robots d’exploration.

Ceci est détaillé dans la documentation robots.txt de Google, qui indique :

Un répertoire ou une page, relatif au domaine racine, qui peut être exploré par l’agent utilisateur que nous venons de mentionner.

Lorsque vous utilisez une URL absolue, rien ne garantit que les robots d’exploration l’interpréteront comme prévu et que la règle d’interdiction/autorisation sera respectée.

8. Éléments obsolètes et non pris en charge

Bien que les directives relatives aux fichiers robots.txt n’aient pas beaucoup changé au fil des ans, deux éléments sont souvent inclus :

Bien que Bing prenne en charge le délai d’exploration, ce n’est pas le cas de Google, mais cela est souvent spécifié par les webmasters. Auparavant, vous pouviez définir les paramètres d’exploration dans Google Search Console, mais cela a été supprimé vers la fin de 2023.

Google a annoncé qu’il cesserait de prendre en charge la directive noindex dans les fichiers robots.txt en juillet 2019. Avant cette date, les webmasters pouvaient utiliser la directive noindex dans leur fichier robots.txt.

Il ne s’agissait pas d’une pratique largement prise en charge ou standardisée, et la méthode privilégiée pour noindex consistait à utiliser des robots sur la page ou des mesures x-robots au niveau de la page.

Comment récupérer d’une erreur Robots.txt

Si une erreur dans le fichier robots.txt a des effets indésirables sur l’apparence de recherche de votre site Web, la première étape consiste à corriger le fichier robots.txt et à vérifier que les nouvelles règles ont l’effet souhaité.

Certains outils d’exploration SEO peuvent vous aider afin que vous n’ayez pas à attendre que les moteurs de recherche explorent ensuite votre site.

Lorsque vous êtes sûr que robots.txt se comporte comme vous le souhaitez, vous pouvez essayer de réexplorer votre site dès que possible.

Des plateformes telles que Google Search Console et Bing Webmaster Tools peuvent vous aider.

Soumettez un plan du site mis à jour et demandez une nouvelle analyse de toutes les pages qui ont été supprimées de manière inappropriée.

Malheureusement, vous êtes à la merci de Googlebot : il n’y a aucune garantie quant au temps qu’il faudra pour que les pages manquantes réapparaissent dans l’index de recherche Google.

Tout ce que vous pouvez faire est de prendre les mesures appropriées pour minimiser ce temps autant que possible et continuer à vérifier jusqu’à ce que Googlebot implémente le fichier robots.txt corrigé.

Dernières pensées

En ce qui concerne les erreurs robots.txt, mieux vaut prévenir que guérir.

Sur un grand site Web générant des revenus, un caractère générique parasite qui supprime l’intégralité de votre site Web de Google peut avoir un impact immédiat sur les revenus.

Les modifications apportées au fichier robots.txt doivent être effectuées avec soin par des développeurs expérimentés, revérifiées et – le cas échéant – soumises à un deuxième avis.

Si possible, testez dans un éditeur sandbox avant de mettre en ligne votre serveur réel pour éviter de créer par inadvertance des problèmes de disponibilité.

N’oubliez pas que lorsque le pire arrive, il est important de ne pas paniquer.

Diagnostiquez le problème, effectuez les réparations nécessaires sur robots.txt et soumettez à nouveau votre plan de site pour une nouvelle exploration.

Nous espérons que votre place dans les classements de recherche sera rétablie d’ici quelques jours.

Davantage de ressources: