Wordpress robots.txt: que devez-vous inclure?

Le fichier Humble Robots.txt se trouve souvent tranquillement à l'arrière-plan d'un site WordPress, mais la valeur par défaut est quelque peu basique hors de la boîte et, bien sûr, ne contribue à aucune directive personnalisée que vous voudrez peut-être adopter.

Plus d'introduction nécessaire – Plongeons directement dans ce que vous pouvez inclure d'autre pour l'améliorer.

(Une petite note à ajouter: ce message n'est utile que pour les installations WordPress sur le répertoire racine d'un domaine ou d'un sous-domaine uniquement, par exemple, domain.com ou exemple.domain.com.)

Où est exactement le fichier wordpress robots.txt?

Par défaut, WordPress génère un fichier Virtual Robots.txt. Vous pouvez le voir en visitant /Robots.txt de votre installation, par exemple:

https://yoursite.com/robots.txt

Ce fichier par défaut existe uniquement en mémoire et n'est pas représenté par un fichier sur votre serveur.

Si vous souhaitez utiliser un fichier Robots.txt personnalisé, il vous suffit de télécharger un dans le dossier racine de l'installation.

Vous pouvez le faire soit en utilisant une application FTP ou un plugin, comme Yoast SEO (SEO → Outils → Éditeur de fichiers), qui inclut un éditeur Robots.txt auquel vous pouvez accéder dans la zone d'administration WordPress.

Les robots wordpress par défaut.txt (et pourquoi il ne suffit pas)

Si vous ne créez pas manuellement un fichier robots.txt, la sortie par défaut de WordPress ressemble à ceci:

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Bien que ce soit sûr, ce n'est pas optimal. Allons plus loin.

Incluez toujours votre site de site XML (s)

Assurez-vous que tous les sitemaps XML sont explicitement répertoriés, car cela aide les moteurs de recherche à découvrir toutes les URL pertinentes.

Sitemap: https://example.com/sitemap_index.xml
Sitemap: https://example.com/sitemap2.xml

Certaines choses ne pas bloquer

Il y a maintenant des suggestions datées pour interdire certains répertoires WordPress de base comme / wp-includes /, / wp-conont-conont / plugins /, ou même / wp-content / uploads /. Ne le faites pas!

Voici pourquoi vous ne devriez pas les bloquer:

Google est assez intelligent pour ignorer les fichiers non pertinents. Le blocage du CSS et du JavaScript peut nuire à la rendue et à provoquer des problèmes d'indexation.
Vous pouvez bloquer involontairement des images / vidéos / autres médias précieuses, en particulier celles chargées à partir de / WP-CONTENT / Téléchargements /, qui contient tous les médias téléchargés que vous voulez vraiment ramper.

Au lieu de cela, laissez les Crawlers récupérer le CSS, le javascript et les images dont ils ont besoin pour un rendu approprié.

Gestion des sites de mise en scène

Il est conseillé de s'assurer que les sites de mise en scène ne sont pas rampés à la fois à des fins de référencement et de sécurité générale.

Je conseille toujours d'interdire tout le site.

Vous devez toujours utiliser la balise NOINDEX META, mais pour vous assurer qu'une autre couche est couverte, il est toujours conseillé de faire les deux.

Si vous naviguez vers Paramètres> lecturevous pouvez cocher l'option «décourager les moteurs de recherche de l'indexation de ce site», qui fait ce qui suit dans le fichier robots.txt (ou vous pouvez l'ajouter en vous).

User-agent: *
Disallow: /

Google peut toujours indexer les pages s'il découvre les liens ailleurs (généralement causés par des appels à la mise en scène de la production lorsque la migration n'est pas parfaite).

IMPORTANT: Lorsque vous passez à la production, assurez-vous de revérifier ce paramètre pour vous assurer que vous retournez toute interdiction ou nodexing.

Nettoyez certains chemins WordPress de base non essentiels

Tout ne doit pas être bloqué, mais de nombreux chemins par défaut n'ajoutent pas de valeur de référencement, comme celle-ci:

Disallow: /trackback/
Disallow: /comments/feed/
Disallow: */embed/
Disallow: /cgi-bin/
Disallow: /wp-login.php

Interdire les paramètres de requête spécifiques

Parfois, vous voudrez arrêter les moteurs de recherche des URL rampant avec des paramètres de requête à faible valeur connus, comme les paramètres de suivi, les réponses de commentaires ou les versions d'impression.

Voici un exemple:

User-agent: *
Disallow: /*?*replytocom=
Disallow: /*?*print=

Vous pouvez utiliser l'outil de paramètres URL de Google Search Console pour surveiller les modèles d'indexation axés sur les paramètres et décider si des interdictions supplémentaires sont dignes d'ajouter.

Interdire les taxonomies et les SERP à faible valeur

Si votre site WordPress comprend des archives de balises ou des pages de résultats de recherche internes qui n'offrent aucune valeur ajoutée, vous pouvez également les bloquer:

User-agent: *
Disallow: /tag/
Disallow: /page/
Disallow: /?s=

Comme toujours, pesez cela à votre stratégie de contenu spécifique.

Si vous utilisez des pages de taxonomie TAG dans le cadre du contenu que vous souhaitez indexé et rampé, ignorez cela, mais généralement, ils n'ajoutent aucun avantage.

Assurez-vous également que votre structure de liaison interne soutient votre décision et minimise tout lien interne aux zones que vous n'avez pas l'intention d'indexer ou de ramper.

Surveiller les statistiques de la crawl

Une fois votre robots.txt en place, surveillez les statistiques de la crawl via la console de recherche Google:

Regardez les statistiques de rampe dans les paramètres pour voir si les bots gaspillent des ressources.
Utilisez l'outil d'inspection URL pour confirmer si une URL bloquée est indexée ou non.
Vérifiez les sitemaps et assurez-vous qu'ils ne référencent que les pages que vous voulez réellement ramper et indexées.

En outre, certains outils de gestion des serveurs, tels que Plesk, CPanel et CloudFlare, peuvent fournir des statistiques de rampe extrêmement détaillées au-delà de Google.

Enfin, utilisez le remplacement de la configuration de Frog Screaming pour simuler les modifications et revisitez les fonctionnalités d'optimisation de la manche de Yoast SEO, dont certaines résolvent ce qui précède.

Réflexions finales

Bien que WordPress soit un excellent CMS, il n'est pas configuré avec les robots par défaut les plus idéaux.txt ou configuré en tenant compte de l'optimisation des crawls.

Juste quelques lignes de code et moins de 30 minutes de votre temps peuvent vous faire économiser des milliers de demandes de compritement inutiles à votre site qui ne sont pas dignes d'être identifiées du tout, ainsi que de sécuriser un problème de mise à l'échelle potentiel à l'avenir.

Plus de ressources:

WordPress robots.txt: que devez-vous inclure?