La recherche AI s'exécute sur deux systèmes de mémoire. Les plateformes ne les utilisent pas de la même manière

Posez la même question sur votre marque sur quatre moteurs d’IA différents, et vous obtiendrez probablement quatre réponses différentes. Une réponse est actuelle et cite votre dernière page. Un autre décrit un poste que vous avez pris à votre retraite il y a 18 mois et ne cite rien du tout. Un troisième achemine le tout via le poste de comparaison d’un concurrent. Même marque, même question, quatre représentations, et les écarts entre elles ne sont pas un bruit aléatoire que vous pouvez balayer comme une bizarrerie de modèle. Ils sont structurels et une fois que vous pouvez voir la structure, vous pouvez planifier autour d’elle.

J’ai fait valoir dans « Quand la coupure des données de formation devient un facteur de classement » que votre marque vit désormais dans deux systèmes de mémoire différents à la fois. L’une est la mémoire paramétrique, les connaissances intégrées dans un modèle pendant la formation, puis gelées jusqu’à la prochaine session de formation. L’autre est la récupération, le contenu extrait au moment où quelqu’un le demande. Cet article portait sur ce que signifie la distinction en termes de timing. Celui-ci concerne la partie que j’ai délibérément laissée pour son propre traitement, à savoir que les moteurs ne s’appuient pas sur ces deux mémoires de la même manière, et cette différence est ce qui façonne réellement l’endroit où votre marque apparaît et comment elle se lit lorsqu’elle y arrive.

Chaque moteur a une posture de mémoire

Permettez-moi de donner un nom à la chose, car le nommer facilite la planification. Un LLM posture de mémoire est son maigre par défaut : lorsque vous lui demandez quelque chose, cherche-t-il une récupération en direct, ou répond-il à partir de ce qu’il contient déjà dans ses paramètres ? Les plates-formes sont classées en deux grands camps, et le camp dans lequel se situe un moteur détermine presque tout sur la façon dont votre contenu atteint un utilisateur via cette surface.

D’un côté se trouvent les moteurs qui récupèrent presque toutes les requêtes. La perplexité est le cas le plus clair ; il effectue une recherche Web en direct sur pratiquement toutes les questions et affiche ses sources par conception plutôt que par exception. Les aperçus IA et le mode IA de Google s’appuient également sur la récupération, mais avec un problème qui mérite d’être compris : ces surfaces sont servies par le même robot d’exploration qui alimente les résultats organiques, en s’appuyant sur l’index de recherche principal plutôt que sur la mémoire paramétrique de Gemini. Le jeton proposé par Google pour contrôler la formation des modèles, Google-Extended, n’a aucun effet sur ce qui apparaît dans la recherche ou sur ses fonctionnalités d’IA. Ainsi, sur les moteurs de récupération permanente, votre visibilité est d’abord une question de récupération et à peine une question paramétrique.

De l’autre côté se trouvent les moteurs qui décident par requête. ChatGPT, Claude, Microsoft Copilot et l’application Gemini font tous un jugement sur chaque question : répondez à partir des paramètres ou allez chercher. La recherche Web de Claude fonctionne comme un outil que le modèle choisit d’invoquer lorsqu’il décide que la question en a besoin. Copilot se base sur le Web uniquement lorsqu’il est activé et que l’invite en profite, et lorsqu’un administrateur désactive la mise à la terre du Web, il revient entièrement à la formation interne du modèle. Ce dernier détail constitue le pont vers « Arrêtez de traiter la visibilité de l’IA comme un seul problème », où la récupération était l’une des trois couches qu’une équipe devait gérer. Voici cette couche de l’intérieur : sur un moteur décidé par un modèle, le fait que la récupération ait lieu peut être un paramètre dans la console d’administration de quelqu’un, et non une propriété de votre contenu.

Et la posture n’est même pas stable à l’intérieur d’un seul moteur. Une étude sur le flux de clics de ChatGPT a révélé que la part des sessions qui ont déclenché une recherche sur le Web oscillait entre environ 15 et 66 % sur l’ensemble de la fenêtre d’étude, évoluant à mesure que les modèles sous-jacents étaient mis à jour. La même question que vous avez posée en mars pourrait répondre de mémoire, et en avril, accédez au Web en direct, sans que rien ne change de votre côté. La posture est une cible mouvante, c’est exactement pourquoi vous devez la mesurer plutôt que de l’assumer.

La récupération a cessé d’être une seule étape

Même lorsqu’un moteur récupère, la récupération n’est plus une action propre, et c’est là que de nombreux instincts d’optimisation plus anciens se brisent discrètement. Le modèle en un seul passage, dans lequel un système intègre votre requête, récupère la première poignée de pages correspondantes et génère, a cédé la place à la récupération agentique qui planifie et exécute de nombreuses sous-requêtes avant de répondre. Une question que l’utilisateur a tapée devient un fan des questions que le système pose en son nom, allant de quelques à des dizaines. Vous n’optimisez plus uniquement pour la question dans le champ de recherche. Vous optimisez les questions invisibles générées par le moteur pour le satisfaire.

Il y a un problème de second ordre au-dessus, et il vaut la peine de le dire clairement même s’il mérite sa propre pièce un jour. Être replacé dans le contexte n’est pas la même chose qu’être bien utilisé. La recherche qui a été la première à documenter la manière dont les modèles utilisent un contexte long de manière inégale date maintenant de près d’une décennie, et les modèles actuels ont largement résolu la version simple, trouvant un fait enfoui dans un long document. Ce qui reste peu fiable est la chose la plus difficile : intégrer plusieurs signaux dispersés en une seule image cohérente. Votre marque n’est jamais un simple fait. Sa représentation dépend du moteur qui rassemble vos pages, vos critiques et les couvertures de tiers qui se trouvent à différents endroits dans le matériel récupéré, puis les assemble correctement. Cette étape d’assemblage entraîne toujours des pertes, ce qui signifie que « nous sommes récupérés » et « nous sommes représentés avec précision » peuvent tous deux être mesurés et peuvent être en désaccord.

Le timing est devenu un levier que vous n’aviez pas l’habitude d’avoir

La mémoire paramétrique introduit une variable qui n’existait tout simplement pas à l’ère du référencement traditionnel : la fenêtre de formation. Vous ne pouvez pas modifier ce qu’un modèle contient déjà dans ses paramètres. Publier une correction aujourd’hui ne change rien à la version de votre marque encodée dans un modèle qui a terminé son entraînement l’été dernier. La seule chose qui change la mémoire paramétrique est une nouvelle exécution d’entraînement, ce qui signifie que la question utile n’est pas de savoir comment corriger ce que le modèle croit déjà, mais ce que le modèle apprendra sur vous lors de son prochain entraînement, et si la bonne version de votre histoire est celle qu’il trouvera.

C’est moins désespéré qu’il n’y paraît, pour deux raisons. Premièrement, la mémoire paramétrique n’est pas une boîte noire sur laquelle vous n’avez aucune influence. Les modèles apprennent la version d’un fait qui apparaît de manière cohérente et corroborée dans de nombreuses sources. Le travail consiste donc à rendre la version exacte de votre histoire redondante, la version qu’il est difficile de manquer lorsque les robots d’exploration arrivent. Il s’agit d’un long jeu mesuré en générations de modèles plutôt qu’en modifications de pages, mais c’est un jeu auquel vous pouvez jouer. Deuxièmement, le rythme de formation n’est plus un lent événement annuel. Les principaux fournisseurs proposent désormais des versions ponctuelles fréquentes, chacune comportant son propre seuil, de sorte que la couche paramétrique s’actualise par étapes que vous pouvez réellement viser plutôt qu’un seul horizon lointain. Certaines des incohérences que les équipes continuent de signaler, le même moteur donnant des réponses différentes selon les jours, est-ce en action : un jour, la question a été extraite des paramètres, le lendemain, elle a déclenché la récupération, et les deux couches ne racontaient pas la même histoire.

Un flux de travail pour savoir où vous en êtes réellement

Aujourd’hui, vous pouvez exécuter cela à la main, sans outillage spécial, ce qui est plutôt le but. Si vous comprenez les deux mémoires, vous pouvez lire ce que fait n’importe quel moteur avec votre marque. Appelez-le l’audit de posture mnésique.

Choisissez les requêtes qui paient. Il ne s’agit pas du nom de votre marque en soi, mais des questions qu’un acheteur pose réellement là où vous devez apparaître : les questions sur les catégories, les comparaisons, celles formulées autour d’un problème. Une poignée, liée aux revenus.
Exécutez chacun sur une diffusion délibérée. Au moins un moteur de récupération permanente et au moins deux moteurs décidés par le modèle, utilisant une formulation identique à chaque fois, de sorte que la seule variable est la plate-forme.
Lisez la posture, pas seulement la réponse. Les citations sont le révélateur. Les sources citées en direct signifient que la récupération a été déclenchée ; une réponse confiante sans sources provenait de la mémoire paramétrique. Sur les moteurs choisis par le modèle, posez chaque question deux fois, une fois avec une formulation simple et une fois avec un indice de récence comme « dernier » ou « actuel », et regardez si la deuxième version fait basculer le moteur en récupération. Ce retournement est la posture qui se révèle.
Triez ce qui ne va pas selon la mémoire qui l’a produit. Des faits périmés sans citation indiquent un problème paramétrique. L’absence totale, ou représentée par la page d’un concurrent sur un moteur qui a clairement effectué une récupération, indique un problème de récupération-sélection. Dans le résultat, les deux peuvent paraître presque identiques. Ce n’est pas le même défaut.
Réparez le calque qui est réellement cassécar les correctifs ne sont pas transférés :
- Un problème paramétrique ne peut pas être édité directement. Vous influencez la prochaine fenêtre de formation en mettant en place dès maintenant un contenu cohérent, corroboré et explorable, de sorte que la version correcte de votre histoire est celle qui est apprise.
- Un problème de récupération est le travail de recherche et de sélection : répondez directement aux sous-questions de répartition, structurez vos pages pour une extraction propre et renforcez la corroboration entre les sources tierces afin que votre version soit celle qui est assemblée dans la réponse.
Datez-le et répétez. La posture n’est pas stable, donc un audit ponctuel est un instantané et non une constatation. Mettez-le à une cadence, au moins trimestriellement.

Ce qui laisse la question à considérer

La plupart des équipes qui optimisent la visibilité de l’IA travaillent dur sur un système de mémoire et traitent l’autre comme s’il n’existait pas, généralement sans jamais avoir décidé lequel elles ont choisi. La discipline que cela demande est petite à décrire et inconfortable à pratiquer : pour chaque moteur qui compte pour vous, connaissez sa posture, sachez quelle mémoire y porte votre marque, et sachez si c’est la couche que vous auriez choisie exprès.

C’est la question de la couche mémoireet la plupart des équipes ne peuvent pas encore y répondre, ce qui constitue en soi le diagnostic. Il explique également pourquoi un seul score de visibilité de l’IA est une erreur de catégorie. Un nombre qui regroupe la position paramétrique et la position de récupération en un seul chiffre fait la moyenne de deux choses qui se déplacent indépendamment, récompensent un travail différent et échouent de différentes manières. Vous ne pouvez pas gérer ce que vous avez aplati. L’alphabétisation qui compte désormais est la capacité de séparer les deux couches dans votre tête et de se demander, à chaque fois, laquelle vous regardez réellement.

Si vous en avez exécuté une version sur votre propre marque, j’aimerais savoir ce que vous avez trouvé, en particulier lorsqu’une plate-forme vous a surpris. Laissez un commentaire ou contactez-nous.

Et si vous voulez un argument plus long expliquant pourquoi la visibilité, la confiance et la lisibilité automatique deviennent le même problème, c’est le sujet de mon livre, La couche machine.

Plus de ressources :

Cet article a été initialement publié sur Duane Forrester Decodes.

La recherche AI ​​s’exécute sur deux systèmes de mémoire. Les plateformes ne les utilisent pas de la même manière

Chaque moteur a une posture de mémoire

La récupération a cessé d’être une seule étape

Le timing est devenu un levier que vous n’aviez pas l’habitude d’avoir

Un flux de travail pour savoir où vous en êtes réellement

Ce qui laisse la question à considérer

La recherche AI s’exécute sur deux systèmes de mémoire. Les plateformes ne les utilisent pas de la même manière