Le problème des citations fantômes

Améliorez vos compétences grâce aux informations hebdomadaires d’experts de Growth Memo. Abonnez-vous gratuitement !

Lorsqu’une IA répond à une question en utilisant votre contenu, elle vous cite généralement avec un lien source. Ce qu’il ne fait pas, 62 % du temps, c’est de dire votre nom. Le lien est là. La mention de la marque ne l’est pas. C’est ce que j’aime appeler un citation fantôme: l’IA utilisant votre contenu ne vous mentionne pas dans la réponse.

Cette semaine, je partage :

Pourquoi être cité et être mentionné sont deux résultats différents qui nécessitent des stratégies différentes.
Quels LLM nomment les marques et lesquels les traitent comme des sources anonymes.
Le format de requête et le type de contenu qui produisent 30 fois plus de mentions de marque.

Un mot de Kevin : je suis un grand fan de HubSpot Marketing à contre-courant. J’avais Kieran, l’un des co-animateurs, sur mon podcast Tech Bound en 2023. Maintenant, ils ont lancé une newsletter avec des expériences intelligentes, de nouvelles perspectives et des leçons pratiques sur ce qui fonctionne actuellement. Alors, j’ai pensé que je pourrais lancer un cri amical : vérifiez-le.

Cette analyse s’appuie sur 3 981 domaines dans 115 invites, 14 pays et quatre moteurs de recherche d’IA (ChatGPT, Google AI Overviews, Gemini, AI Mode), en utilisant les données de Semrush AI Toolkit. Chaque apparition est étiquetée comme « citée » (lien source présent) et/ou « mentionnée » (le nom de la marque apparaît dans le texte de la réponse). L’écart entre ces deux États est le problème des citations fantômes.

1. 62 % des citations LLM de votre marque sont fonctionnellement invisibles

La plupart des marques supposent qu’être cité signifie être vu. Les données disent le contraire.

74,9% des domaines ont été cités et 38,3% mentionnés. 61,7 % des citations sont des citations fantômes : le domaine obtient un lien source mais aucune reconnaissance de nom dans le texte de la réponse.

Seules 13,2 % des apparitions se transforment à la fois en citation et en mention. Pas un seul domaine n’a été cité, mais pas du tout mentionné, ou vice versa.

2. Chaque LLM montre un comportement différent

Les quatre moteurs d’IA traitent les citations et les mentions de manières fondamentalement différentes :

Gemini nomme des marques dans 83,7 % des apparitions, mais ne génère un lien de citation que 21,4 % du temps. Il fonctionne davantage comme un causeur s’appuyant sur la connaissance de la marque.
ChatGPT est à l’opposé : il cite 87,0 % du temps mais ne mentionne les marques que dans 20,7 % des réponses, fonctionnant davantage comme un article académique avec des notes de bas de page.
Les aperçus Google AI (AIO) se situent au milieu mais penchent vers la citation.
Le mode AI de Google offre environ 17 % de mentions de marque en plus que ChatGPT dans ses résultats, mais fonctionne également plus près d’un article universitaire que son frère Gemini.

Pour les marques, cela signifie que la visibilité Gemini et la visibilité ChatGPT ne sont pas la même chose. (Cet ensemble de données a montré clairement qu’il n’y avait pas beaucoup de chevauchement avec les citations/mentions ChatGPT et les citations/mentions Gemini pour les mêmes invites.) L’optimisation pour l’une n’aide pas pour l’autre. Il n’existe pas de « mesure de visibilité de l’IA » unique. Il existe au moins 4 systèmes comportementaux différents fonctionnant en parallèle.

3. Les marques fortes sont nommées dans le texte

Une tendance claire se dégage parmi les domaines apparaissant trois fois ou plus : les agrégateurs de contenu et les sources académiques sont cités à plusieurs reprises mais presque jamais mentionnés.

Medium.com a été cité 16 fois pour les mêmes invites sur trois moteurs différents et nommé zéro fois.
Wikipedia.org a été cité 27 fois et mentionné dans seulement deux réponses, les deux fois pour la même requête conversationnelle (« Quelle est la créature la plus dangereuse au monde ? »).
Wired.com, sciencedirect.com, harvard.edu : même modèle.

Les marques grand public ayant une forte identité publique sont mentionnées dans les résultats à près de 100 %. L’IA ne ressent pas le besoin de citer. Au lieu de cela, il mentionne carrément les marques grand public. Il sait que les données sur les marques proviennent de quelque part, mais ne ressent pas le besoin de le dire explicitement aux utilisateurs. Pour les éditeurs dont la proposition de valeur est l’autorité de l’information, il s’agit d’un problème structurel.

*Un taux de mention supérieur à 100 % signifie que la marque est nommée dans le texte de la réponse même lorsqu’elle n’est pas citée comme lien source – le moteur référence la marque par son nom sans créer de lien vers elle. Pour les valeurs de cet ensemble de données supérieures à 100 %, pensez à être cité 10x et mentionné 10x comme = 100 %. Si une marque est mentionnée 12 fois et citée 10 fois, cela fait 120 %.

4. Les LLM ne sont pas d’accord sur la même marque 22 % du temps

454 combinaisons invite+domaine ont été testées sur plusieurs moteurs. Dans 22 % de ces résultats (100 au total), les LLM n’étaient pas d’accord sur l’opportunité de mentionner la marque :

Instagram.com a été mentionné par ChatGPT et Gemini mais uniquement cité (non nommé) par Google.
Facebook.com a été mentionné par Gemini dans 3 apparitions sur 3.
L’IA de Google a cité Facebook 9 fois sur 9, mais ne l’a nommé que 1 fois.

La même marque, la même requête, mais des moteurs différents et des résultats différents. C’est important pour la mesure : une marque peut apparaître « visible » dans les données d’un moteur tout en étant totalement anonyme dans un autre. Les mesures globales de visibilité de l’IA masquent cette divergence.

5. Les taux de mention de marque dans le texte varient selon la géographie

En prenant en compte le LLM, les différences au niveau des pays dans les taux de mention sont significatives :

L’Inde et la Suède affichent les taux de mention les plus élevés (50 %), ce qui suggère des modèles de requêtes plus conversationnels ou axés sur la marque sur ces marchés.
L’Italie, le Brésil et les Pays-Bas affichent les taux de mention les plus faibles (18 à 22 %), avec des taux de citation très élevés (82 à 94 %).
Le Royaume-Uni et le Canada se situent dans la moyenne mais au-dessus de la moyenne mondiale.

*Remarque : l’ensemble de données utilise des invites localisées confirmées par SEMrush, la langue n’est donc pas une confusion.

Être cité et être nommé ne sont pas la même chose et nécessitent une approche différente

De cette analyse, quatre points à retenir m’ont le plus marqué pour les marques et leurs stratégies de contenu :

1. Être cité signifie qu’une IA s’appuie sur votre contenu. Être mentionné signifie vous nommer. Nous n’en savons pas encore assez sur les implications des mentions et des citations, mais nous pouvons affirmer avec certitude qu’il existe un système qui décide quand vous êtes cité ou mentionné.

2. Votre stratégie doit être spécifique au LLM. Une stratégie Gemini-first est différente d’une stratégie ChatGPT-first. Tout rapport de visibilité de l’IA regroupant tous les LLM est trompeur.

3. Le contenu comparatif permet de nommer les marques. Le contenu informatif alimente la machine de manière anonyme. Si l’objectif est de mentionner la marque, pas seulement des citations, concentrez votre stratégie de contenu sur l’évaluation, la comparaison et la recommandation.

4. Le format d’invite est important. Les marques doivent cartographier non seulement les sujets dans lesquels elles souhaitent apparaître, mais spécifiquement les modèles de formulation qui produisent des mentions par rapport aux citations fantômes. Les requêtes conversationnelles courtes et les requêtes structurées longues se comportent comme des produits différents.

Méthodologie

Source de données : Semrush AI Toolkit : 3 981 apparitions de domaines dans 115 invites, 14 pays et quatre moteurs de recherche IA (ChatGPT, Google AI Overviews, Gemini, Google).

Chaque ligne de l’ensemble de données représente un domaine apparu dans une réponse d’IA. Chaque apparition est étiquetée comme « cité » (le domaine apparaît comme lien source) et/ou « mentionné » (le nom de la marque apparaît dans le texte de la réponse). L’écart entre ces deux États est ce que cette analyse appelle un citation fantôme: l’IA a utilisé votre contenu mais n’a pas prononcé votre nom.