Google montre comment bloquer les robots et améliorer les performances d'un site

Martin Splitt de Google a répondu à une question sur les robots malveillants qui ont un impact sur les performances du site, en proposant des suggestions que chaque référenceur et propriétaire de site devrait connaître et mettre en pratique.

Les robots malveillants sont un problème de référencement

De nombreux experts SEO qui effectuent des audits de site négligent généralement la sécurité et le trafic des robots dans le cadre de leurs audits, car les spécialistes du marketing numérique ne comprennent pas que les événements de sécurité ont un impact sur les performances du site et peuvent expliquer pourquoi un site n'est pas correctement exploré. L'amélioration des éléments essentiels du Web ne contribuera en rien à améliorer les performances du site lorsqu'une mauvaise posture de sécurité contribue à de mauvaises performances du site.

Chaque site Web est attaqué et les effets d'une exploration excessive peuvent déclencher un code de réponse « erreur de serveur 500 », signalant une incapacité à diffuser des pages Web et entravant la capacité de Google à explorer les pages Web.

Comment se défendre contre les attaques de robots

La personne qui a posé la question souhaitait connaître les conseils de Google sur la manière de lutter contre les vagues de robots scrapers qui impactent les performances de son serveur.

Voici la question posée :

« Notre site Web subit des perturbations importantes en raison d'un scraping ciblé par un logiciel automatisé, ce qui entraîne des problèmes de performances, une augmentation de la charge du serveur et des problèmes potentiels de sécurité des données. Malgré le blocage des adresses IP et d'autres mesures préventives, le problème persiste. Que pouvons-nous faire ? »

Martin Splitt, de Google, a suggéré d'identifier le service à l'origine des attaques et de l'avertir en cas d'utilisation abusive de ses services. Il a également recommandé d'utiliser les capacités de pare-feu d'un CDN (Content Delivery Network).

Martin a répondu :

« Cela ressemble à un problème de déni de service distribué si l’exploration est si agressive qu’elle entraîne une dégradation des performances.

Vous pouvez essayer d'identifier le propriétaire du réseau d'où provient le trafic, remercier « son hébergeur » et envoyer une notification d'abus. Vous pouvez généralement utiliser les informations WHOIS pour cela.

En revanche, les CDN disposent souvent de fonctionnalités permettant de détecter le trafic des robots et de le bloquer. Par définition, ils éloignent le trafic de votre serveur et le distribuent de manière efficace, ce qui est un avantage. La plupart des CDN reconnaissent les robots des moteurs de recherche légitimes et ne les bloquent pas, mais si cela vous préoccupe, pensez à leur demander avant de commencer à les utiliser.

Les conseils de Google fonctionneront-ils ?

Il est conseillé d'identifier le fournisseur de cloud ou le centre de données du serveur qui héberge les robots malveillants. Mais dans de nombreux cas, cette méthode ne fonctionnera pas.

Trois raisons pour lesquelles contacter les fournisseurs de ressources ne fonctionnera pas

1. De nombreux robots sont cachés

Les bots utilisent souvent des VPN et des réseaux open source « Tor » qui masquent leur source, ce qui empêche toute tentative d'identification des services cloud ou de l'hébergeur Web fournissant l'infrastructure des bots. Les pirates informatiques se cachent également derrière des ordinateurs personnels et professionnels compromis, appelés botnets, pour lancer leurs attaques. Il n'existe aucun moyen de les identifier.

2. Les robots changent d'adresse IP

Certains robots réagissent au blocage d'IP en basculant instantanément vers un autre réseau pour reprendre immédiatement leur attaque. Une attaque peut provenir d'un serveur allemand et, une fois bloquée, basculer vers un fournisseur de réseau en Asie.

3. Utilisation inefficace du temps

Contacter les fournisseurs de réseau au sujet des utilisateurs abusifs est inutile lorsque la source du trafic est obscurcie ou provient de centaines de sources. De nombreux propriétaires de sites et référenceurs pourraient être surpris de découvrir l'intensité des attaques sur leurs sites Web. Même prendre des mesures contre un petit groupe de contrevenants est une utilisation inefficace du temps, car il existe littéralement des millions d'autres robots qui remplaceront ceux bloqués par un fournisseur de cloud.

Et qu'en est-il des botnets constitués de milliers d'ordinateurs compromis dans le monde ? Pensez-vous avoir le temps d'avertir tous ces FAI ?

Voilà trois raisons pour lesquelles la notification des fournisseurs d'infrastructure n'est pas une approche viable pour arrêter les robots qui ont un impact sur les performances du site. En réalité, c'est une utilisation du temps futile et inefficace.

Utilisez un WAF pour bloquer les robots

L'utilisation d'un pare-feu d'application Web (WAF) est une bonne idée et c'est la fonction que Martin Splitt suggère lorsqu'il évoque l'utilisation d'un CDN (réseau de diffusion de contenu). Un CDN, comme Cloudflare, envoie aux navigateurs et aux robots d'exploration la page Web demandée à partir d'un serveur situé le plus près d'eux, ce qui accélère les performances du site et réduit les ressources du serveur pour le propriétaire du site.

Un CDN dispose également d'un WAF (Web Application Firewall) qui bloque automatiquement les robots malveillants. La suggestion de Martin d'utiliser un CDN est certainement une bonne option, notamment parce qu'elle présente l'avantage supplémentaire d'améliorer les performances du site.

Une option que Martin n'a pas mentionnée est d'utiliser un WAF de plugin WordPress comme Wordfence. Wordfence dispose d'un WAF qui arrête automatiquement les robots en fonction de leur comportement. Par exemple, si un robot demande un nombre ridicule de pages, il créera automatiquement un blocage IP temporaire. Si le robot change d'adresse IP, il identifiera le comportement d'exploration et le bloquera à nouveau.

Une autre solution à considérer est une plateforme SaaS comme Sucuri qui propose un WAF et un CDN pour accélérer les performances. Wordfence et Sucuri sont tous deux des fournisseurs fiables de sécurité WordPress et ils proposent des versions gratuites limitées mais efficaces.

Écoutez la question et la réponse à 6:36 minutes du podcast Google SEO Office Hours :