Les conseils LLM ne transfèrent pas la même chose que les conseils SEO

Pendant environ deux décennies, la discipline SEO a fonctionné sur une hypothèse discrète qui s’est avérée être l’une de ses caractéristiques les plus précieuses. Les conseils d’un moteur de recherche ont voyagé. Si Google a déclaré que les plans de site étaient importants, Bing a déclaré que les plans de site étaient importants. Si Bing disait que les données structurées méritaient de réels efforts, Google disait la même chose. Les praticiens ont optimisé pour Google avec une confiance raisonnable dans le fait que le travail serait répercuté sur les autres moteurs, et c’est ce qui s’est produit la plupart du temps. Cette portabilité n’était pas une chance. C’était le produit d’une couche de chevauchement structurellement importante que les principaux moteurs de recherche avaient construite conjointement, brique par brique, pendant vingt ans.

Ce monde n’existe pas au pays des LLM. Les principaux fournisseurs s’entraînent sur différents corpus, exécutent différents robots d’exploration selon différentes politiques, acheminent différentes requêtes via différents systèmes de récupération et appliquent différents processus d’alignement qui façonnent la réponse finale d’une manière que les signaux en amont ne peuvent pas prédire. Les conseils d’un fournisseur donné, y compris les conseils de Google concernant ses propres produits Gemini, constituent un point de données. Les praticiens qui perpétuent l’habitude du référencement, l’habitude de traiter les conseils d’un moteur comme à peu près la carte entière, optimiseront en toute confiance pour une plate-forme et passeront à côté des autres.

Encadré : alors que je finalisais cet article, Google a publié de nouveaux conseils sur l’optimisation de ses fonctionnalités d’IA générative. Leur cadrage est explicite : du point de vue de la recherche Google, l’optimisation de la recherche IA reste du référencement. Ce cadrage est précis pour la recherche Google. Cela ne s’étend pas à ChatGPT, Claude, Perplexity ou tout autre LLM, et c’est précisément le piège sur lequel porte cet article.

Les normes partagées qui ont rendu les conseils SEO portables

L’ère du guidage portable s’est construite sur une véritable collaboration et non sur une coïncidence. Le protocole Sitemaps est devenu la propriété commune de Google, Yahoo et Microsoft en novembre 2006, lorsque les trois moteurs ont formellement convenu de prendre en charge un protocole commun dans la version 0.90, s’appuyant sur la version précédente de Google Sitemaps 0.84 de juin 2005. Cinq ans plus tard, le 2 juin 2011, les trois mêmes moteurs ont lancé Schema.org, rejoint par Yandex peu de temps après, pour créer un vocabulaire commun pour le balisage de données structurées. C’est l’annonce qui a été faite sur scène au SMX Advanced. Je faisais partie de l’équipe Bing à l’époque, et ce qui m’a frappé à l’époque est ce qui compte toujours aujourd’hui. Les moteurs étaient concurrents, mais ils avaient décidé qu’un vocabulaire commun servait à tous. Les webmasters ont un ensemble de règles. Le Web dispose de données plus propres. Les moteurs ont reçu de meilleurs signaux. Tout le monde a gagné.

Le modèle s’est répété avec robots.txt, la convention de 1994 devenue RFC 9309 à l’IETF en 2022, formalisant ce que tout robot d’exploration sérieux a déjà honoré. Et cela s’est encore répété, plus récemment, avec IndexNow, le protocole lancé par Microsoft Bing et Yandex en octobre 2021. IndexNow est désormais pris en charge par Bing, Yandex, Naver, Seznam et Yep. Google teste le protocole depuis 2021, mais ne l’a pas adopté.

Cette couche de chevauchement est exactement la raison pour laquelle les conseils de Google vous semblent sûrs à suivre, même si vous vous souciez du trafic Bing. Les signaux utilisés par les moteurs n’étaient pas identiques, mais les entrées qu’ils acceptaient, les protocoles qu’ils respectaient et les normes qu’ils annonçaient l’étaient. L’optimisation avait un substrat partagé.

Où les piles LLM divergent réellement

L’environnement LLM ne dispose pas de substrat partagé de taille comparable. Les différences ne sont pas cosmétiques et ne sont pas temporaires. Ils sont intégrés à la façon dont les systèmes sont construits.

Commencez par les données d’entraînement. OpenAI a signé des accords de licence divulgués avec News Corp d’une valeur pouvant atteindre 250 millions de dollars sur cinq ans, Axel Springer pour environ 13 millions de dollars par an, Reddit pour un montant estimé à 70 millions de dollars par an, ainsi que le Financial Times, Condé Nast, Hearst, Vox Media, The Atlantic, Associated Press, Le Monde et d’autres. Google a son propre accord Reddit, estimé à 60 millions de dollars par an, accordant un accès API aux données en temps réel. Anthropic n’a pas divulgué publiquement les accords de licence d’éditeur équivalents, et ce statut non divulgué est en soi le point auquel les praticiens sont confrontés. Les corpus qui ont nourri ces modèles, et qui continuent de les rafraîchir, ne sont pas les mêmes documents. Les praticiens ne peuvent pas savoir ce qu’un prestataire donné a payé et ce qu’il n’a pas payé.

L’infrastructure du robot diverge ensuite. OpenAI exécute trois robots distincts : GPTBot pour la formation, OAI-SearchBot pour l’indexation de recherche et ChatGPT-User pour la récupération initiée par l’utilisateur. Anthropic en gère trois : ClaudeBot pour la formation, Claude-SearchBot pour la recherche et Claude-User pour la récupération initiée par l’utilisateur. Perplexity exécute PerplexityBot et Perplexity-User. Google a introduit Google-Extended en septembre 2023 en tant qu’agent utilisateur qui contrôle si Google peut utiliser le contenu d’un site pour former Gemini, entièrement distinct du Googlebot qui gère l’indexation de recherche traditionnelle. Il n’existe pas d’agent utilisateur IA unique. Chaque fournisseur nécessite une règle distincte, et les règles ne se traduisent pas clairement entre les fournisseurs, car les robots n’effectuent pas des tâches équivalentes de manière équivalente.

Les architectures de récupération divergent structurellement. ChatGPT a historiquement utilisé l’index de Bing comme principale source de recherche sur le Web, et cette connexion semble toujours être principale, bien qu’OpenAI continue de développer une infrastructure supplémentaire en parallèle. Perplexity a construit son système de récupération sur un pipeline basé sur Vespa qui traite les documents et les fragments de sous-documents comme des unités récupérables de première classe. Gemini de Google utilise le propre index de Google ainsi que la base Knowledge Graph. Claude utilise Brave Search comme partenaire de récupération. Même requête, quatre systèmes de récupération différents, quatre vues différentes des sources existantes et des sources qui valent la peine d’être mises en évidence.

Vient ensuite la couche d’alignement, où le référencement n’avait aucun équivalent. Une fois qu’un modèle est formé sur son corpus, les prestataires effectuent une post-formation pour façonner le comportement réel du modèle : ton, modèles de refus, format, posture de sécurité, ce qui compte comme une bonne réponse. L’approche principale d’OpenAI a été le RLHF, ou Reinforcement Learning from Human Feedback, où les évaluateurs humains notent les résultats du modèle et le modèle apprend à produire des réponses hautement notées. Anthropic a développé l’IA constitutionnelle, qui entraîne des modèles à critiquer et à réviser leurs propres résultats par rapport à un ensemble de principes écrits. Ces méthodologies produisent des comportements manifestement différents dans les produits finaux. Le même contenu récupéré, introduit dans deux modèles alignés par deux méthodologies, peut donner lieu à deux réponses sensiblement différentes à propos de la même marque.

Lorsque les conseils d’un fournisseur échouent manifestement à porter

L’exemple le plus clair de conseils qui ne sont pas portés est llms.txt. Jeremy Howard de Answer.AI a proposé le fichier en septembre 2024 comme un manifeste de démarque, placé à la racine d’un site, qui guiderait les LLM vers le contenu le plus important. La proposition a été reprise par la communauté SEO. Yoast a construit un générateur. Les agences ont ajouté la création llms.txt à leurs catalogues de services. Les intervenants de la conférence l’ont déclaré essentiel.

À la mi-2026, aucun fournisseur LLM majeur n’avait confirmé consommer le fichier. Pas OpenAI. Pas anthropique. Pas Google. Les analyses des journaux de serveur sur des centaines de milliers de domaines montrent que les principaux robots d’exploration de l’IA ne demandent pas systématiquement /llms.txt. John Mueller de Google l’a comparé publiquement à la balise obsolète de mots-clés méta. Gary Illyes a confirmé lors de Search Central Live en juillet 2025 que Google ne prend pas en charge llms.txt et n’envisage pas de le faire.

J’ai écrit à ce sujet ailleurs, je ne répéterai donc pas les détails techniques ici. Ce qui compte pour cet argument, c’est la leçon structurelle. Schema.org a réussi parce que trois moteurs l’ont construit ensemble, puis l’ont appliqué ensemble. Llms.txt a été proposé par un chercheur, repris par les fournisseurs d’outils et ignoré par les plates-formes qu’il était censé servir. Le modèle de normes partagées qui a donné au SEO ses conseils portables n’est pas disponible pour les praticiens LLM à la même échelle, car les plateformes ne construisent pas les normes ensemble. Ils construisent leurs propres pipelines.

L’inversion des Gémeaux

L’illustration la plus claire de l’ampleur de la dégradation de la portabilité du guidage se trouve au sein d’une seule entreprise. Google publie sa propre documentation SEO sur Search Central, la directive canonique que l’industrie suit depuis deux décennies. Ces documents mettent l’accent sur les signaux de classement traditionnels, l’EEAT, la qualité du contenu, l’accessibilité technique et les données structurées. Ces conseils sont toujours utiles pour la recherche Google elle-même.

Google crée également Gemini, le modèle qui alimente les aperçus de l’IA et la surface distincte du mode AI de Google. Et le comportement de citation de ces surfaces ne semble pas suivre les conseils que la même entreprise publie pour ses propres résultats de recherche.

Fin 2024, environ les trois quarts des pages citées dans AI Overviews se classaient également dans le top 12 de Google pour la même requête. Début 2026, après que Google ait mis à niveau les aperçus d’IA vers Gemini 3 en janvier, Ahrefs a analysé 4 millions d’URL d’aperçu d’IA et a constaté que seulement 38 % des pages citées figuraient également dans le top 10 pour la même requête. Une analyse BrightEdge distincte a rapproché le chevauchement de 17 %. Les travaux post-mise à niveau de SE Ranking ont révélé que Gemini 3 remplaçait environ 42 % des domaines précédemment cités dans les versions précédentes du modèle et générait 32 % de sources supplémentaires par réponse.

L’écart se creuse encore lorsque l’on examine le mode AI de Google, qui est une surface conversationnelle distincte fonctionnant sur la même famille Gemini. Les données Semrush montrent que le mode AI et les aperçus de l’IA parviennent à des conclusions sémantiquement similaires dans 86 % du temps, mais ne citent les mêmes URL que dans 13,7 % du temps. Seulement 14 % des citations du mode AI se classent dans le top 10 traditionnel de Google.

Il semble jusqu’à présent que la relation canonique ait changé. Les conseils de référencement publiés par Google restent le chemin le plus simple vers un classement dans la recherche Google. Mais ce classement n’est plus un indicateur fiable pour être cité par les propres surfaces d’IA de Google. Les mêmes conseils, le même contenu, le même domaine peuvent produire trois résultats très différents dans la recherche Google, les aperçus de l’IA et le mode AI, même si tous les trois vivent au sein de la même entreprise. L’ancienne stratégie consistant à suivre les conseils du moteur de recherche et à s’attendre à ce que les autres surfaces du moteur se comportent de manière cohérente ne semble plus produire les mêmes résultats qu’avant.

Quels sont encore les ports et pourquoi ils sont plus petits qu’il n’y paraît

Une couche universelle survit. L’accessibilité des robots d’exploration est toujours importante pour chaque fournisseur. Le contenu factuel de source primaire remporte toujours plus de citations que la reformulation de l’agrégateur. Une structure propre et récupérable aide toujours chaque système à comprendre de quoi parle une page. La présence sur les sources de haute autorité que tous les principaux LLM citent de manière disproportionnée, Wikipédia, YouTube, Reddit, les principaux médias, fonctionne toujours comme un multiplicateur de force sur toutes les plateformes. Gagner en visibilité sur ces sources donne au contenu une chance de faire surface dans n’importe quel LLM qui s’en inspire.

Mais la couche universelle est beaucoup plus petite qu’elle ne l’était à l’ère du référencement. L’analyse de Qwairy de 118 000 réponses d’IA sur ChatGPT, Perplexity, Google AI Mode et Claude a révélé que seulement 11 % des domaines cités apparaissaient sur plusieurs plates-formes. Les 89 % restants étaient spécifiques à la plateforme. Une marque qui remporte des citations sur Perplexity peut être largement invisible sur Claude. Une marque qui est une référence régulière sur ChatGPT peut ne pas apparaître du tout dans les aperçus de l’IA. Le même contenu peut être la bonne réponse pour un système et la mauvaise réponse pour le système voisin.

Ce que cela signifie pour le travail

L’implication pratique n’est pas d’abandonner tout espoir. Il s’agit pour les praticiens d’arrêter de considérer les conseils d’un prestataire de LLM comme une carte universelle et de commencer à les traiter comme un élément parmi d’autres. Lisez ce que chaque grand fournisseur publie sur ses propres systèmes. Testez votre visibilité sur toutes les plateformes, pas seulement sur celle que vous utilisez le plus. Considérez la divergence comme la valeur par défaut et le chevauchement comme l’exception, et non l’inverse.

Ce n’est pas ainsi que fonctionnait le référencement, et la différence compte. Le vieux réflexe était d’optimiser pour Google et de faire confiance à la portabilité. La nouvelle réalité est que suivre les conseils d’un LLM, même les conseils de Google sur Gemini, vous laissera optimisé pour une partie du paysage et potentiellement aveugle pour le reste. La discipline est en train d’être reconstruite sur un travail spécifique à la plate-forme qui n’existait pas à l’ère du référencement, et les praticiens qui reconnaissent cela vont passer les deux prochaines années à établir les normes que tous les autres suivent.

Le chevauchement a diminué. Vous avez maintenant plus de travail que jamais à accomplir.

Si vous avez des idées sur les points où la divergence entre les prestataires est la plus marquée dans votre propre travail, contactez-nous directement. J’aimerais vraiment entendre ce qui apparaît dans les données.

Plus de ressources :


Cet article a été initialement publié sur Duane Forrester Decodes.