Les connus et les inconnus de l’attribution de données structurées

En tant que spécialistes du marketing, nous aimons les excellents entonnoirs. Il clarifie le fonctionnement de nos stratégies. Nous avons des taux de conversion et pouvons suivre le parcours client de la découverte à la conversion. Mais dans le monde d’aujourd’hui axé sur l’IA, notre entonnoir est devenu sombre.

Nous ne pouvons pas encore pleinement mesurez la visibilité dans les expériences d’IA comme ChatGPT ou Perplexity. Même si les outils émergents offrent des informations partielles, leurs données ne sont pas complètes ni toujours fiables. Les mesures traditionnelles telles que les impressions et les clics ne racontent toujours pas toute l’histoire dans ces espaces, laissant les spécialistes du marketing confrontés à un nouveau type d’écart de mesure.

Pour apporter plus de clarté, examinons ce que nous savons et ce que nous ne savons pas sur la mesure de la valeur des données structurées (également appelées balisage de schéma). En comprenant les deux côtés, nous pouvons nous concentrer sur ce qui est mesurable et contrôlable aujourd’hui, et sur les opportunités qui se présentent à mesure que l’IA change la façon dont les clients découvrent et interagissent avec nos marques.

Pourquoi la plupart des données de « visibilité de l’IA » ne sont pas réelles

L’IA a créé une soif de métriques. Les spécialistes du marketing, désespérés de quantifier ce qui se passe au sommet de l’entonnoir, se tournent vers une vague de nouveaux outils. Beaucoup de ces plateformes créent de nouvelles mesures, telles que « l’autorité de la marque sur les plateformes d’IA », qui ne s’appuient pas sur des données représentatives.

Par exemple, certains outils tentent de mesurer les « invites de l’IA » en traitant des expressions de mots clés courtes comme si elles étaient équivalentes aux requêtes des consommateurs dans ChatGPT ou Perplexity. Mais cette approche est trompeuse. Les consommateurs écrivent des invites plus longues et riches en contexte qui vont bien au-delà de ce que suggèrent les mesures basées sur des mots clés. Ces invites sont nuancées, conversationnelles et hautement personnalisées – rien à voir avec les requêtes traditionnelles à longue traîne.

Ces mesures synthétiques offrent un faux confort. Ils détournent l’attention de ce qui est réellement mesurable et contrôlable. Le fait est que ChatGPT, Perplexity et même les aperçus de l’IA de Google ne nous fournissent pas de données de visibilité claires et complètes.

Alors, que pouvons-nous mesurer qui ait réellement un impact sur la visibilité ? Données structurées.

Qu’est-ce que la visibilité de la recherche AI ?

Avant de plonger dans les métriques, il convient de définir la « visibilité de la recherche IA ». Dans le référencement traditionnel, la visibilité signifiait apparaître sur la première page des résultats de recherche ou générer des clics. Dans un monde axé sur l’IA, la visibilité signifie être compris, fiable et référencé à la fois par les moteurs de recherche et les systèmes d’IA. Les données structurées jouent un rôle dans cette évolution. Il aide à définir, connecter et clarifier les entités numériques de votre marque afin que les moteurs de recherche et les systèmes d’IA puissent les comprendre.

Les points connus : ce que nous pouvons mesurer en toute confiance pour les données structurées

Parlons de ce qui est connu et mesurable aujourd’hui en matière de données structurées.

Augmentation des taux de clics grâce à des résultats riches

D’après les données de notre revue trimestrielle de l’activité, nous constatons qu’en mettant en œuvre des données structurées sur une page, le contenu se qualifie pour un résultat riche, et les marques d’entreprise constatent systématiquement une augmentation des taux de clics. Google prend actuellement en charge plus de 30 types de résultats enrichis, qui continuent d’apparaître dans la recherche organique.

Par exemple, d’après nos données internes, au troisième trimestre 2025, une marque d’entreprise du secteur de l’électroménager a vu ses taux de clics sur les pages de produits augmenter de 300 % lorsqu’un résultat riche a été attribué. Les résultats riches continuent de fournir à la fois des gains de visibilité et de conversion grâce à la recherche organique.

Augmentation des clics sans marque grâce à une liaison d’entité robuste

Il est important de faire la distinction entre le balisage de schéma de base et le balisage de schéma robuste avec des liens d’entités qui aboutissent à un graphe de connaissances. Le balisage de schéma décrit le contenu d’une page. La liaison d’entités connecte ces éléments à d’autres entités bien définies sur votre site et sur le Web, créant ainsi des relations qui définissent le sens et le contexte.

Une entité est une chose ou un concept unique et distinctif, tel qu’une personne, un produit ou un service. La liaison d’entités définit la manière dont ces entités interagissent les unes avec les autres, soit via des sources externes faisant autorité telles que Wikidata et le graphe de connaissances de Google, soit par le biais de votre propre graphe de connaissances de contenu interne.

Par exemple, imaginez une page sur un médecin. Le balisage du schéma décrirait le médecin. Robuste, sémantique le balisage se connecterait également à Wikidata et au graphe de connaissances de Google pour définir leur spécialité, tout en établissant un lien avec les services hospitaliers et médicaux qu’ils fournissent.

Visibilité tout-en-un

Les mesures de référencement traditionnelles ne peuvent pas encore mesurer directement les expériences d’IA, mais certaines plates-formes peuvent identifier certains cas où une marque est mentionnée dans un résultat AI Overview (AIO).

Les recherches d’un rapport BrightEdge ont révélé que l’adoption de pratiques de référencement basées sur les entités permet une plus grande visibilité de l’IA. Le rapport notait :

« L’IA donne la priorité au contenu provenant d’entités connues et fiables. Arrêtez d’optimiser les mots-clés fragmentés et commencez à créer une autorité thématique complète. Nos données montrent que le contenu faisant autorité est trois fois plus susceptible d’être cité dans les réponses de l’IA que les pages étroitement ciblées. « 

Les inconnues : ce que nous ne pouvons pas encore mesurer

Bien que nous puissions mesurer l’impact des entités dans le balisage de schéma grâce aux métriques SEO existantes, nous n’avons pas encore de visibilité directe sur la façon dont ces éléments influencent les performances du grand modèle de langage (LLM).

Comment les LLM utilisent le balisage de schéma

La visibilité commence par la compréhension – et la compréhension commence par des données structurées.

Les preuves de cela se multiplient. Dans le billet de blog de Microsoft du 8 octobre 2025, « Optimiser votre contenu pour l’inclure dans les réponses de recherche AI ​​(Microsoft Advertising », Krishna Madhaven, chef de produit principal pour Microsoft Bing, a écrit :

« Pour les spécialistes du marketing, le défi consiste à s’assurer que leur contenu est facile à comprendre et structuré de manière à ce que les systèmes d’IA puissent l’utiliser. »

Il a ajouté :

« Le schéma est un type de code qui aide les moteurs de recherche et les systèmes d’IA à comprendre votre contenu. »

De même, l’article de Google, « Les meilleurs moyens de garantir que votre contenu fonctionne correctement dans les expériences d’IA de Google sur la recherche », renforce le fait que « les données structurées sont utiles pour partager des informations sur votre contenu d’une manière lisible par machine ».

Pourquoi Google et Microsoft mettent-ils tous deux l’accent sur les données structurées ? L’une des raisons peut être le coût et l’efficacité. Les données structurées aident à créer des graphiques de connaissances, qui servent de base à une IA plus précise, explicable et fiable. Des recherches ont montré que les graphiques de connaissances peuvent réduire les hallucinations et améliorer les performances dans les LLM :

Bien que le balisage de schéma lui-même ne soit généralement pas ingéré directement pour former les LLM, la phase de récupération dans les systèmes de génération augmentée par récupération (RAG) joue un rôle crucial dans la façon dont les LLM répondent aux requêtes. Dans des travaux récents, le système GraphRAG de Microsoft génère un graphe de connaissances (via l’extraction d’entités et de relations) à partir de données textuelles et exploite ce graphe dans son pipeline de récupération. Dans leurs expériences, GraphRAG surpasse souvent une approche RAG de base, en particulier pour les tâches nécessitant un raisonnement multi-sauts ou une mise à la terre sur des entités disparates.

Cela explique en partie pourquoi des entreprises comme Google et Microsoft encouragent les marques d’entreprise à investir dans des données structurées : il s’agit du tissu conjonctif qui aide les systèmes d’IA à récupérer des informations contextuelles précises.

Au-delà du référencement au niveau de la page : création de graphiques de connaissances

Il existe une distinction importante entre l’optimisation d’une seule page pour le référencement et la création d’un graphe de connaissances qui connecte l’ensemble du contenu de votre entreprise. Dans une récente interview avec Robby Stein, vice-président des produits chez Google, il a été noté que les requêtes d’IA peuvent impliquer des dizaines de sous-requêtes en coulisses (appelées requêtes fan-out). Cela suggère un niveau de complexité qui exige une approche plus holistique.

Pour réussir dans cet environnement, les marques doivent aller au-delà de l’optimisation des pages et plutôt créer des graphiques de connaissances, ou plutôt une couche de données qui représente le contexte complet de leur entreprise.

La vision du Web sémantique, réalisée

Ce qui est vraiment excitant, c’est que la vision du Web sémantique est là. Comme l’écrivaient Tim Berners-Lee, Ora Lassila et James Hendler dans « The Semantic Web » (Scientific American, 2001) :

« Le Web sémantique permettra aux machines de comprendre des documents et des données sémantiques, et permettra aux agents logiciels d’errer de page en page pour exécuter des tâches sophistiquées pour les utilisateurs. »

Nous constatons que cela se produit aujourd’hui, avec des transactions et des requêtes effectuées directement au sein de systèmes d’IA comme ChatGPT. Microsoft se prépare déjà à la prochaine étape, souvent appelée le « web agent ». En novembre 2024, RV Guha – créateur de Schema.org et désormais chez Microsoft – a annoncé un projet ouvert appelé NLWeb. L’objectif de NLWeb est d’être « le moyen le plus rapide et le plus simple de transformer efficacement votre site Web en une application d’IA, permettant aux utilisateurs d’interroger le contenu du site en utilisant directement le langage naturel, tout comme avec un assistant IA ou Copilot ».

Lors d’une récente conversation que j’ai eue avec Guha, il a partagé que la vision de NLWeb est d’être le point final permettant aux agents d’interagir avec les sites Web. NLWeb utilisera des données structurées pour ce faire :

« NLWeb exploite des formats semi-structurés comme Schema.org… pour créer des interfaces en langage naturel utilisables à la fois par les humains et les agents d’IA. »

Transformer l’entonnoir sombre en un entonnoir intelligent

Tout comme nous manquons de mesures réelles pour mesurer les performances de la marque dans ChatGPT et Perplexity, nous ne disposons pas encore de mesures complètes sur le rôle du balisage de schéma dans la visibilité de l’IA. Mais nous recevons des signaux clairs et cohérents de la part de Google et de Microsoft selon lesquels leurs expériences d’IA utilisent, en partie, des données structurées pour comprendre le contenu.

L’avenir du marketing appartient aux marques qui sont à la fois comprises et approuvées par les machines. Les données structurées sont un facteur pour y parvenir.

Plus de ressources :