Les référenceurs recommandent des données structurées pour la recherche IA… Pourquoi ?

Un article sur LinkedIn a remis en question l'idée selon laquelle les données structurées de Schema.org ont un impact sur les résultats d'un grand modèle de langage. Apparemment, certains référenceurs recommandent des données structurées pour un meilleur classement dans les moteurs de recherche IA.

Patrick Stox a écrit le message suivant sur LinkedIn :

« Est-ce que j'ai raté quelque chose ? Pourquoi les référenceurs pensent-ils que le balisage de schéma aura un impact sur la sortie LLM ? »

Patrick a parlé de « sortie LLM » dans le contexte d'une recommandation SEO, il est donc probable qu'il s'agisse d'une référence à ChatGPT Search et à d'autres moteurs de recherche IA. Alors, les moteurs de recherche IA obtiennent-ils leurs données à partir de données structurées ?

Les LLM sont formés sur des textes Web, des livres, des documents gouvernementaux, des documents juridiques et d'autres données textuelles (ainsi que d'autres formes de médias également) qui sont ensuite utilisées pour produire des résumés et des réponses, mais sans plagier les données de formation. Cela signifie qu'il est inutile de penser que l'optimisation de votre contenu Web entraînera l'envoi par le LLM lui-même de références vers ce site Web.

Les moteurs de recherche d’IA s’appuient sur des index de recherche (et des graphiques de connaissances) grâce à la génération augmentée de récupération (RAG). Les index des moteurs de recherche eux-mêmes sont créés à partir de données analysées, et non de données structurées par schéma.

Perplexity AI classe le contenu exploré sur le Web en utilisant une version modifiée du PageRank sur son index de recherche, par exemple. Google et Bing explorent les données textuelles et effectuent des tâches telles que supprimer le contenu en double, supprimer les mots vides et d'autres manipulations du texte extrait du HTML, et toutes les pages ne contiennent pas de données structurées.

En fait, Google n'utilise qu'une fraction des données structurées Schema.org disponibles pour des types spécifiques d'expériences de recherche et de résultats riches, ce qui limite le type de données structurées utilisées par les éditeurs.

Ensuite, il y a le fait que les robots d'exploration de Bing et de Google affichent le code HTML, identifient les en-têtes, les pieds de page et le contenu principal (dont ils extraient le texte à des fins de classement). Pourquoi feraient-ils cela s'ils s'appuient sur des données structurées Schema, n'est-ce pas ?

L'idée selon laquelle il est bon d'utiliser les données structurées de Schema.org pour mieux se classer dans un moteur de recherche d'IA n'est pas basée sur des faits, c'est juste une spéculation fantaisiste. Ou cela pourrait provenir d'un effet de « jeu de téléphone » où une personne dit quelque chose et vingt personnes plus tard, cela se transforme en quelque chose de complètement différent.

Par exemple, Jono Alderson a proposé que les données structurées pourraient constituer une norme que les moteurs de recherche IA pourraient utiliser pour mieux comprendre le Web. Il ne disait pas que les moteurs de recherche IA l'utilisent actuellement, il proposait simplement que les moteurs de recherche IA devraient envisager de l'adopter et peut-être que ce message a été transformé en une théorie à part entière vingt SEO plus tard.

Malheureusement, de nombreuses idées infondées circulent dans les cercles SEO. L'autre jour, j'ai vu un SEO affirmer sur les réseaux sociaux que la recherche locale de Google n'utilise pas d'adresses IP en réponse aux requêtes de recherche « à proximité ». Tout ce que quiconque avait à faire pour tester cette idée est de se connecter à un VPN, de choisir un emplacement géographique pour son adresse IP et d'effectuer une requête de recherche « à proximité » et il verra que l'adresse IP utilisée par le VPN a influencé le « à proximité ». » résultats de recherche.

Capture d'écran d'une requête à proximité influencée par l'adresse IP

Google publie même une page d'assistance qui indique qu'ils utilisent l'adresse IP pour personnaliser les résultats de recherche. Pourtant, certaines personnes pensent le contraire, car certains SEO ont réalisé une étude de corrélation et, lorsqu'on nous interroge, nous revenons à quelqu'un qui hurle que Google ment.

Allez-vous croire vos yeux menteurs ?

Données structurées Schema.Org et résultats de recherche IA

Les « SEO » recommandant aux éditeurs d'utiliser les données structurées Schema.org pour les données de formation LLM n'ont également aucun sens, car les données de formation ne sont pas citées dans la sortie LLM, uniquement pour les sorties provenant du Web, qui elles-mêmes proviennent d'un index de recherche qui est d'un robot. Comme mentionné précédemment, les éditeurs n'utilisent qu'une fraction des données structurées Schema.org disponibles, car Google lui-même n'en utilise qu'une infime fraction. Cela n’a donc aucun sens pour un moteur de recherche IA de s’appuyer sur des données structurées pour ses résultats.

L'expert en marketing de recherche Christopher Shin (profil LinkedIn) a commenté :

« Je pense la même chose après avoir lu ton message Patrick. C’est ainsi que je l’interprète actuellement. Je pensais que les LLM ne généraient généralement pas de réponses à partir des moteurs de recherche, mais plutôt à partir de l'interprétation des données. Droite? Mais le balisage des données de schéma serait utilisé par les SER pour afficher des extraits enrichis, etc., non ? Je pense que la principale nuance avec le schéma et les LLM est que les moteurs de recherche utilisent un schéma pour les SERP, tandis que les LLM utilisent l'interprétation des données pour déterminer l'impact du schéma sur les LLM.

Des gens comme Christopher Shin et Patrick Stox me donnent l'espoir qu'un référencement pragmatique et sensé se bat toujours pour passer à travers le bruit, la publication de Patrick sur LinkedIn en est la preuve.

SEO pragmatique

La définition du pragmatique consiste à faire des choses pour des raisons raisonnables et réalistes et non sur des opinions fondées sur des informations incomplètes et des conjectures.

S'exprimant en tant que personne impliquée dans le référencement depuis pratiquement sa naissance, ne pas réfléchir à fond est la raison pour laquelle les référenceurs et les éditeurs ont traditionnellement perdu du temps avec des problèmes vaguement définis, ont tourné leurs roues sur des activités inutiles comme des signaux superficiels d'EEAT et ainsi de suite. . Il est vraiment décourageant de pointer du doigt des documents et des déclarations officielles et d'être époustouflé par des déclarations telles que « Google ment ». Ce genre d’attitude donne envie de « crier ».

Un référencement un peu plus pragmatique s'il vous plaît.