Google explique l'impact des CDN sur l'exploration et le référencement

Google a publié un explicatif qui explique comment les réseaux de diffusion de contenu (CDN) influencent l'exploration des recherches et améliorent le référencement, mais aussi comment ils peuvent parfois causer des problèmes.

Qu'est-ce qu'un CDN ?

Un réseau de diffusion de contenu (CDN) est un service qui met en cache une page Web et l'affiche à partir d'un centre de données le plus proche du navigateur demandant cette page Web. La mise en cache d'une page Web signifie que le CDN crée une copie d'une page Web et la stocke. Cela accélère la diffusion des pages Web, car elles sont désormais servies à partir d'un serveur plus proche du visiteur du site, nécessitant moins de « sauts » sur Internet depuis le serveur d'origine jusqu'à la destination (le navigateur du visiteur du site).

Les CDN débloquent plus d'exploration

L'un des avantages de l'utilisation d'un CDN est que Google augmente automatiquement la vitesse d'exploration lorsqu'il détecte que des pages Web sont servies à partir d'un CDN. Cela rend l’utilisation d’un CDN attrayante pour les référenceurs et les éditeurs soucieux d’augmenter le nombre de pages explorées par Googlebot.

Normalement, Googlebot réduira la quantité d'exploration d'un serveur s'il détecte qu'il atteint un certain seuil qui entraîne un ralentissement du serveur. Googlebot ralentit la quantité d'exploration, ce que l'on appelle la limitation. Ce seuil de « limitation » est plus élevé lorsqu'un CDN est détecté, ce qui entraîne l'exploration d'un plus grand nombre de pages.

Ce qu'il faut comprendre concernant la diffusion de pages à partir d'un CDN, c'est que la première fois que les pages sont diffusées, elles doivent l'être directement depuis votre serveur. Google utilise l'exemple d'un site comportant plus d'un million de pages Web :

« Cependant, lors du premier accès à une URL, le cache du CDN est « froid », ce qui signifie que puisque personne n'a encore demandé cette URL, son contenu n'a pas encore été mis en cache par le CDN, donc votre serveur d'origine devra toujours servir cette URL. au moins une fois pour « réchauffer » le cache du CDN. Ceci est également très similaire au fonctionnement de la mise en cache HTTP.

En bref, même si votre boutique en ligne est soutenue par un CDN, votre serveur devra servir ces 1 000 007 URL au moins une fois. Ce n'est qu'après ce premier service que votre CDN pourra vous aider avec ses caches. Cela représente une charge importante sur votre « budget d'exploration » et le taux d'exploration sera probablement élevé pendant quelques jours ; gardez cela à l'esprit si vous envisagez de lancer plusieurs URL à la fois.

Lors de l'utilisation de CDN, cela se retourne contre vous pour l'exploration

Google indique qu'il arrive parfois qu'un CDN puisse mettre Googlebot sur une liste noire et bloquer par la suite l'exploration. Cet effet est décrit comme deux types de blocs :

1. Blocs durs

2. Blocs souples

Des blocages matériels se produisent lorsqu'un CDN répond qu'il y a une erreur de serveur. Une mauvaise réponse d'erreur du serveur peut être un 500 (erreur interne du serveur), ce qui indique qu'un problème majeur se produit avec le serveur. Une autre mauvaise réponse d’erreur de serveur est la 502 (mauvaise passerelle). Ces deux réponses d’erreur du serveur inciteront Googlebot à ralentir la vitesse d’exploration. Les URL indexées sont enregistrées en interne chez Google, mais les réponses continues 500/502 peuvent amener Google à éventuellement supprimer les URL de l'index de recherche.

La réponse préférée est un 503 (service indisponible), qui indique une erreur temporaire.

Un autre blocage difficile à surveiller est ce que Google appelle les « erreurs aléatoires », c'est-à-dire lorsqu'un serveur envoie un code de réponse 200, ce qui signifie que la réponse était bonne (même s'il affiche une page d'erreur avec cette réponse 200). Google interprétera ces pages d'erreur comme des doublons et les supprimera de l'index de recherche. C’est un gros problème car la récupération de ce type d’erreur peut prendre du temps.

Un blocage logiciel peut se produire si le CDN affiche l'un de ces messages « Êtes-vous humain ? » pop-ups (interstitiels de bot) vers Googlebot. Les interstitiels de robot doivent envoyer une réponse du serveur 503 afin que Google sache qu'il s'agit d'un problème temporaire.

La nouvelle documentation de Google explique :

« …quand l'interstitiel apparaît, c'est tout ce qu'ils voient, pas votre superbe site. Dans le cas de ces interstitiels de vérification par robot, nous vous recommandons fortement d'envoyer un signal clair sous la forme d'un code d'état HTTP 503 aux clients automatisés tels que les robots d'exploration indiquant que le contenu est temporairement indisponible. Cela garantira que le contenu n'est pas automatiquement supprimé de l'index de Google.

Voir aussi : 9 conseils pour optimiser le budget d'exploration pour le référencement

Problèmes de débogage avec l'outil d'inspection d'URL et les contrôles WAF

Google recommande d'utiliser l'outil d'inspection d'URL dans la console de recherche pour voir comment le CDN diffuse vos pages Web. Si le pare-feu CDN, appelé Web Application Firewall (WAF), bloque Googlebot par adresse IP, vous devriez pouvoir vérifier les adresses IP bloquées et les comparer à la liste officielle des adresses IP de Google pour voir si l'une d'entre elles figure sur la liste. .

Google propose les conseils de débogage suivants au niveau CDN :

« Si vous avez besoin que votre site apparaisse dans les moteurs de recherche, nous vous recommandons fortement de vérifier si les robots qui vous intéressent peuvent accéder à votre site. N'oubliez pas que les adresses IP peuvent se retrouver automatiquement sur une liste de blocage, à votre insu, donc vérifier les listes de blocage de temps en temps est une bonne idée pour le succès de votre site dans la recherche et au-delà. Si la liste de blocage est très longue (un peu comme cet article de blog), essayez de rechercher uniquement les premiers segments des plages IP, par exemple, au lieu de rechercher 192.168.0.101, vous pouvez simplement rechercher 192.168.

Lisez la documentation de Google pour plus d'informations :

Crawling décembre : CDN et crawl