Gary Illyes, de Google, continue de mettre en garde contre les problèmes de paramètres d'URL

Gary Illyes, de Google, a récemment souligné un problème récurrent de référencement sur LinkedIn, faisant écho aux inquiétudes qu'il avait précédemment exprimées dans un podcast Google.

Le problème ? Les paramètres d'URL posent des problèmes aux moteurs de recherche lorsqu'ils explorent des sites Web.

Ce problème est particulièrement problématique pour les grands sites et les boutiques en ligne. Lorsque différents paramètres sont ajoutés à une URL, cela peut donner lieu à de nombreuses adresses Web uniques qui mènent toutes au même contenu.

Cela peut gêner les moteurs de recherche, réduisant leur efficacité à explorer et indexer correctement les sites.

L'énigme des paramètres d'URL

Dans le podcast et dans la publication LinkedIn, Illyes explique que les URL peuvent accueillir une infinité de paramètres, chacun créant une URL distincte même s'ils pointent tous vers le même contenu.

Il écrit :

« Une particularité intéressante des URL est que vous pouvez ajouter un nombre infini (j'appelle ça du BS) de paramètres d'URL au chemin d'accès de l'URL, et ainsi former essentiellement de nouvelles ressources. Les nouvelles URL n'ont même pas besoin de correspondre à un contenu différent sur le serveur, chaque nouvelle URL peut simplement servir le même contenu que l'URL sans paramètre, mais ce sont toutes des URL distinctes. Un bon exemple est le paramètre d'URL de contournement du cache sur les références JavaScript : il ne modifie pas le contenu, mais il force les caches à s'actualiser. »

Il a fourni un exemple de la manière dont une URL simple comme «/chemin/fichier » peut s'étendre à « /chemin/fichier?param1=a » et « /chemin/fichier?param1=a&param2=b« , tous proposant potentiellement un contenu identique.

« Chaque [is] « une URL différente, mais toujours le même contenu », a noté Illyes.

Extension accidentelle d'URL et ses conséquences

Les moteurs de recherche peuvent parfois trouver et essayer d’explorer des pages inexistantes sur votre site, ce qu’Illyes appelle des « fausses URL ».

Ces problèmes peuvent survenir à cause de liens relatifs mal codés, par exemple. Un site de taille normale avec environ 1 000 pages peut se transformer en un million d'URL fantômes.

Cette explosion de fausses pages peut causer de sérieux problèmes. Les robots des moteurs de recherche peuvent frapper vos serveurs de plein fouet, en essayant d'explorer toutes ces pages inexistantes.

Cela peut surcharger les ressources de votre serveur et potentiellement faire planter votre site. De plus, cela gaspille le budget d'exploration du moteur de recherche sur des pages inutiles au lieu de votre contenu.

Au final, vos pages risquent de ne pas être explorées et indexées correctement, ce qui pourrait nuire à votre classement dans les recherches.

Illyes déclare :

« Il arrive parfois que vous créiez accidentellement ces fausses URL, faisant exploser votre espace URL de 1 000 URL à 1 million, des robots d’exploration excitants qui, à leur tour, martèlent vos serveurs de manière inattendue, faisant fondre tuyaux et sifflets à gauche et à droite. Les mauvais liens relatifs sont une cause relativement courante. Mais robotstxt est votre ami dans ce cas. »

Les sites de commerce électronique les plus touchés

La publication LinkedIn n'a pas spécifiquement évoqué les magasins en ligne, mais la discussion du podcast a précisé que ce problème est un enjeu majeur pour les plateformes de commerce électronique.

Ces sites Web utilisent généralement des paramètres d’URL pour gérer le suivi, le filtrage et le tri des produits.

Par conséquent, vous pouvez voir plusieurs URL différentes pointant vers la même page produit, chaque variante d'URL représentant des choix de couleurs, des options de taille ou la provenance du client.

Atténuer le problème

Illyes recommande systématiquement d'utiliser robots.txt pour résoudre ce problème.

Dans le podcast, Illyes a souligné les solutions possibles, telles que :

Créer des systèmes pour repérer les URL en double
De meilleures façons pour les propriétaires de sites d'informer les moteurs de recherche sur la structure de leur URL
Utiliser robots.txt de manière plus intelligente pour guider les robots des moteurs de recherche

L'outil de paramètres d'URL obsolètes

Dans la discussion du podcast, Illyes a évoqué les tentatives passées de Google pour résoudre ce problème, y compris l'outil de paramètres d'URL désormais obsolète dans la Search Console.

Cet outil permettait aux sites Web d’indiquer quels paramètres étaient importants et lesquels pouvaient être ignorés.

Interrogé sur LinkedIn sur le retour éventuel de cet outil, Illyes s'est montré sceptique quant à son efficacité pratique.

Il a déclaré : « En théorie oui. En pratique non », expliquant que l'outil souffrait des mêmes problèmes que robots.txt, à savoir que « les gens ne pouvaient pas, pour leur vie, comprendre comment gérer leurs propres paramètres ».

Conséquences pour le référencement et le développement Web

Cette discussion en cours chez Google a plusieurs implications pour le référencement et le développement Web :

Budget de crawl:Pour les sites volumineux, la gestion des paramètres d'URL peut aider à préserver le budget d'exploration, garantissant que les pages importantes sont explorées et indexées.
Architecture du site:Les développeurs devront peut-être reconsidérer la manière dont ils structurent les URL, en particulier pour les grands sites de commerce électronique avec de nombreuses variantes de produits.
Navigation à facettes:Les sites de commerce électronique utilisant la navigation à facettes doivent être conscients de l'impact que cela a sur la structure de l'URL et la capacité d'exploration.
Balises canoniques:Les balises canoniques aident Google à comprendre quelle version d'URL doit être considérée comme principale.

Pourquoi c'est important

Google discute des problèmes de paramètres d'URL sur plusieurs canaux, ce qui indique une réelle préoccupation concernant la qualité de la recherche.

Pour les experts du secteur, rester informé sur ces aspects techniques est essentiel pour maintenir la visibilité des recherches.

Pendant que Google travaille sur des solutions, une gestion proactive des URL et des conseils efficaces pour les robots d'exploration sont recommandés.