Comment concevoir des structures d'URL pour la récupération par l'IA, pas seulement pour les classements

Pendant des années, la structure des URL était une case à cocher technique en matière de référencement. Soyez bref, utilisez des traits d’union, incluez le mot-clé, c’est fait.

Même si ce manuel fonctionne toujours, il est de plus en plus incomplet. Une part croissante du public cible découvre désormais du contenu via des assistants IA et de grands modèles de langage tels que ChatGPT, Perplexity, Claude, les aperçus IA de Google, et bien plus encore.

Ces systèmes récupèrent et synthétisent les informations différemment des robots de recherche traditionnels, et si votre architecture d’URL n’est pas conçue dans cet esprit, vous augmentez vos chances de ne pas être cité par les LLM.

Dans la nouvelle ère de la recherche, nous devons étendre ces principes fondamentaux du référencement pour nous aligner également sur les robots IA et la manière dont ils explorent les URL.

Pourquoi les systèmes d’IA lisent les URL différemment

Les moteurs de recherche ont passé des décennies à développer une infrastructure sophistiquée d’exploration et d’indexation. Ils suivent les redirections, résolvent les canoniques, analysent JavaScript (parfois…) et peuvent déduire le contexte d’une page lorsque l’URL est une chaîne de caractères aléatoires.

Les systèmes de récupération d’IA, en particulier les pipelines de génération augmentée de récupération (RAG) et les LLM connectés au Web, fonctionnent souvent différemment.

Le fonctionnement de RAG comporte trois parties principales :

L’invite de saisie est convertie en une intégration vectorielle
Les passages pertinents sont ensuite récupérés à partir d’URL indexées, de documents et de graphiques de connaissances dans les résultats de recherche traditionnels comme Google et Bing.
Un LLM comme ChatGPT ou similaire traitera ensuite ces informations et générera une réponse affinée.

Un système RAG conçu par un développeur utilisera essentiellement des sources de données provenant d’URL pour extraire le contenu : ils exploreront l’URL, convertiront le contenu Web en « morceaux » consultables et les stockeront sous forme de vecteurs numériques pour une récupération ultérieure.

Cela évolue désormais également vers un domaine de mise à la terre du contexte URL, spécifique à Gemini. L’objectif de la mise à la terre du contexte des URL est d’aider Gemini (et probablement les aperçus de l’IA/le mode AI) à mieux comprendre et répondre aux questions sur le contenu et les données des URL individuelles sans effectuer de traitement RAG traditionnel.

L’objectif ici est que le LLM extraie spécifiquement des informations directes de plusieurs URL, analyse plusieurs rapports et combine des informations provenant de plusieurs sources pour générer des résumés plus précis. Cela devrait, en théorie, contribuer à améliorer la précision factuelle de l’IA et à réduire les hallucinations.

Ensuite, il y a la classification zéro tir, une technique qui permet aux modèles de catégoriser l’objectif d’une page Web sans aucune donnée de formation spécifique à une tâche.

Plutôt que de s’appuyer sur des exemples étiquetés, le modèle analyse les indices sémantiques tels que les structures d’URL (traitées comme des chaînes de texte brut) et les mappe à des catégories prédéfinies à l’aide de méthodes telles que la similarité cosinus ou le raisonnement basé sur des invites.

Cela fonctionne en s’appuyant sur les connaissances linguistiques pré-entraînées du modèle pour déduire la fonction probable d’une page, tout en détectant également des modèles distincts dans les mots et les formulations qui indiquent le type de contenu que contient la page.

Cela s’est avéré particulièrement utile pour identifier les liens de phishing et autres liens malveillants uniquement sur la base de leurs modèles d’URL, mais indique également comment les LLM pourraient commencer à tirer parti de la classification zéro-shot pour s’appuyer uniquement sur les URL afin de déduire la pertinence sémantique.

Une URL qui ne communique rien oblige les modèles LLM à travailler plus dur et introduit une ambiguïté dans la façon dont le contenu est catégorisé.

Plus concrètement, lorsqu’un système d’IA cite une source dans une réponse, il fait souvent apparaître l’URL à côté de l’extrait. Cette URL devient visible pour les utilisateurs réels, de la même manière que dans un résultat de recherche, et ils vont prendre de véritables décisions quant à savoir s’ils doivent ou non cliquer.

Un chemin propre et descriptif renforce la confiance d’une manière telle que quelque chose comme /p?id-4821 ne le fera jamais.

Le principe fondamental des URL en tant que signaux sémantiques

Considérez votre structure d’URL comme une couche de contenu secondaire – une couche qui communique la hiérarchie, le sujet et la spécificité indépendamment du titre de la page, du H1 ou d’autres métadonnées.

Une URL comme /ressources/seo/url-structure-ai-retrieval/ indique à un système de récupération plusieurs choses à la fois : cela se trouve sous un hub de ressources, dans une catégorie SEO et couvre un sous-thème spécifique à un niveau granulaire.

C’est un signal utile. Il reflète la manière dont les systèmes d’IA tentent de comprendre la provenance et la pertinence du contenu avant de le faire apparaître dans une réponse.

Cela est particulièrement important pour :

Requêtes à longue traîne et basées sur des questions, dans lesquelles les systèmes d’IA recherchent des correspondances précises avec des besoins d’informations spécifiques.
Autorité thématique, où votre hiérarchie d’URL peut renforcer le fait que votre domaine possède un domaine.
Qualité des citations, où une URL descriptive augmente la probabilité qu’un agent IA référence votre contenu sur la page presque identique d’un concurrent.

Principes pratiques d’architecture

Il existe un certain nombre de principes d’architecture pratiques que vous devez prendre en compte à la fois pour la recherche traditionnelle et pour la recherche IA.

Utilisez une hiérarchie logique et superficielle

Nidification profonde (c.-à-d. /blog/catégorie/sous-catégorie/année/mois/post-titre/) crée du bruit et votre contenu se trouve à plusieurs pas de la page d’accueil. Une structure de trois niveaux de profondeur est presque toujours suffisante, c’est-à-dire domaine > catégorie > page spécifique. Il existe certaines configurations CMS, comme Shopify, où vous êtes obligé d’en choisir quatre ou cinq, en fonction de votre thème (c’est-à-dire, domaine/blog/nom-du-blog/blog-post-title/), mais tant que vous ajoutez un contexte significatif et non un encombrement administratif, votre structure sera alignée sur le principe.

Rendre chaque segment lisible et descriptif par l’homme

Évitez les abréviations, le jargon interne ou les numéros d’identification dans les URL publiques. Une URL comme /ai-search-optimisation communique le sujet directement, alors qu’une URL comme /aso-v2 ne communique rien sans connaissance préalable.

Alignez les slugs d’URL avec l’intention de recherche réelle, pas seulement avec le mot clé

Il y a une grande différence entre /e-mail marketing et /email-marketing-meilleures-pratiques-b2b. Le second signale la spécificité. Cela est plus susceptible d’apparaître lorsqu’un système d’IA génère une réponse à une question précise, car l’URL elle-même réduit la portée de la pertinence avant même que le contenu ne soit analysé.

Soyez cohérent avec la dénomination des catégories sur votre site

Si votre stratégie de contenu utilise /guides/ pour le contenu éducatif de longue durée et /blog/ pour des commentaires plus courts, maintenez-le systématiquement. Il est probable que les systèmes de récupération d’IA construisent un modèle de la structure de votre site au fil du temps. L’incohérence brouille le signal quant au type de contenu et à l’endroit où il se trouve.

Évitez le bourrage de mots clés dans les URL

Il s’agit d’un vieux conseil SEO, mais il s’applique également ici. Une URL remplie de mots-clés semble être du spam pour les utilisateurs humains qui la voient citée dans une réponse de l’IA, ce qui compromet l’avantage de confiance que vous essayez de créer. Un mot-clé ou une expression principale par segment est le bon appel.

À quoi cela ressemble-t-il en pratique

Si deux spécialistes du marketing différents écrivent sur le même sujet, la structure de l’URL pourrait être essentielle pour que les systèmes RAG puissent mieux comprendre le contexte de la page dans le cadre de la récupération de contenu.

Un exemple :

Le marketeur A publie /blog/2024/03/email-tips-part-4.

Le marketeur B publie /ressources/email-marketing/b2b-deliverability-guide.

La structure d’URL du spécialiste du marketing B communique correctement la hiérarchie (centre de ressources), la catégorie (marketing par e-mail) et un objectif spécifique (délivrabilité B2B) avant qu’un seul mot du corps du texte ne soit traité.

Les utilisateurs sont également plus susceptibles de bénéficier de la citation de cette URL, car ils peuvent lui donner un sens immédiatement.

On peut affirmer que ce type de clarté et de spécificité pourrait s’aggraver dans la mesure où la structure de votre URL et l’architecture des informations de votre site peuvent dicter l’ensemble de la structure thématique de votre site, aidant également à communiquer à la fois l’expertise et la pertinence.

Le problème de la redirection et de la consolidation

Ceci est plus pertinent pour les sites d’entreprise qui ont accumulé une dette d’URL comme des redirections, des chemins en double et des slugs incohérents en raison de migrations historiques du système de gestion de contenu.

Cela pourrait créer un problème spécifique pour la récupération par l’IA s’il existe des chaînes de redirection et des chemins en double, car les robots d’exploration peuvent ne pas atterrir systématiquement sur la version canonique d’une page et différents systèmes de récupération gèrent différemment la résolution de redirection.

Une solution pratique consistera à donner la priorité aux URL de votre site Web. Vérifiez vos pages à trafic le plus élevé et à valeur la plus élevée, et confirmez que leurs URL canoniques sont propres, accessibles et structurées conformément à votre taxonomie actuelle.

Travaillez ensuite à rebours.

Vous n’avez pas besoin de restructurer l’intégralité du site pour avoir la chance d’être cité dans les réponses de l’IA, mais surtout pour vos pages les plus intéressantes, vous devez vous assurer que vous proposez les meilleurs signaux d’URL possibles.

Ce que vous devriez éviter de changer

Il est important de ne pas toujours rechercher les grands et les brillants, alors ne restructurez pas complètement l’architecture URL de l’ensemble de votre site uniquement pour des gains marginaux de récupération par l’IA.

La restructuration d’URL comporte un réel risque de référencement et du temps pour récupérer l’équité des liens si des redirections 301 sont mises en place – et de nombreuses histoires d’horreur en matière de migration Web peuvent attester de ce qui peut arriver lorsqu’elles ne sont pas mises en œuvre correctement.

L’objectif est d’appliquer ces principes au nouveau contenu et de signaler les problèmes structurels dans les pages existantes de grande valeur là où les arguments en faveur de la résolution de ces problèmes sont clairs et présentent un risque moindre.

Si votre structure d’URL actuelle suit déjà des conventions claires, descriptives et hiérarchiques (qui font toutes partie des meilleures pratiques de référencement), alors félicitations ! Vous avez optimisé la récupération par l’IA sans même le savoir.

En résumé

La structure des URL a toujours été un signal relativement faible, mais à mesure que les assistants IA deviennent un canal de découverte plus significatif, les structures d’URL ont le potentiel d’être citées dans plus d’endroits que Google et Bing.

Ils peuvent vous aider à apparaître dans les réponses générées par l’IA, ils peuvent façonner la qualité des citations et ils peuvent contribuer à la façon dont les systèmes de récupération catégoriseront votre contenu avant toute autre chose.

Créez simplement des URL qui racontent clairement l’histoire de votre contenu, avant que l’utilisateur ne clique dessus.

Plus de ressources :

Comment concevoir des structures d’URL pour la récupération par l’IA, pas seulement pour les classements