L’interview de Perplexity AI explique le fonctionnement de la recherche AI

J’ai récemment parlé avec Jesse Dwyer de Perplexity à propos du référencement et de la recherche par IA sur ce sur quoi les référenceurs devraient se concentrer en termes d’optimisation de la recherche par IA. Ses réponses ont offert des commentaires utiles sur ce sur quoi les éditeurs et les référenceurs devraient se concentrer en ce moment.

Recherche IA aujourd’hui

Un point important à retenir que Jesse a partagé est que la personnalisation est en train de changer complètement

« Je dois dire que la chose la plus importante et la plus simple à retenir à propos de l’AEO et du SEO est que ce n’est plus un jeu à somme nulle. Deux personnes avec la même requête peuvent obtenir une réponse différente sur la recherche commerciale, si l’outil d’IA qu’elles utilisent charge la mémoire personnelle dans la fenêtre contextuelle (Perplexity, ChatGPT).

Cela dépend en grande partie de la technologie de l’indice (pourquoi il existe réellement une différence entre GEO et AEO). Mais oui, il est actuellement exact de dire que (la plupart) des meilleures pratiques de référencement traditionnelles s’appliquent toujours.

Ce qu’il faut retenir de la réponse de Dwyer, c’est que la visibilité de la recherche ne se résume plus à un seul résultat de recherche cohérent. Le contexte personnel en tant que rôle dans les réponses de l’IA signifie que deux utilisateurs peuvent recevoir des réponses très différentes à la même requête avec des sources de contenu sous-jacentes éventuellement différentes.

Bien que l’infrastructure sous-jacente soit toujours un index de recherche classique, le référencement joue toujours un rôle pour déterminer si le contenu peut être récupéré. On dit que Perplexity AI utilise une forme de PageRank, qui est une méthode basée sur des liens pour déterminer la popularité et la pertinence des sites Web, ce qui fournit une indication sur certains des points sur lesquels les référenceurs devraient se concentrer.

Cependant, comme vous le verrez, ce qui est récupéré est très différent de celui de la recherche classique.

J’ai enchaîné avec la question suivante :

Donc, ce que vous dites (et corrigez-moi si je me trompe ou si je me trompe légèrement), c’est que la recherche classique a tendance à afficher de manière fiable les dix mêmes sites pour une requête donnée. Mais pour la recherche IA, en raison de la nature contextuelle des conversations IA, elles sont plus susceptibles de fournir une réponse différente pour chaque utilisateur.

Jesse a répondu :

« C’est exact, oui. »

Traitement des sous-documents : pourquoi la recherche AI ​​est différente

Jesse a poursuivi sa réponse en parlant de ce qui se passe dans les coulisses pour générer une réponse dans la recherche IA.

Il a poursuivi :

« En ce qui concerne la technologie d’indexation, la plus grande différence dans la recherche par IA se résume actuellement au traitement du document entier par rapport au traitement des « sous-documents ».

Les moteurs de recherche traditionnels indexent l’ensemble du document. Ils consultent une page Web, la notent et la classent.

Lorsque vous utilisez un outil d’IA construit sur cette architecture (comme la recherche Web ChatGPT), il effectue essentiellement une recherche classique, récupère les 10 à 50 meilleurs documents, puis demande au LLM de générer un résumé. C’est pourquoi la recherche GPT est décrite comme « 4 recherches Bing dans un trench-coat » : la plaisanterie est directionnellement précise, car le modèle génère une sortie basée sur les résultats de recherche standard.

C’est pourquoi nous appelons la stratégie d’optimisation de cette GEO (Generative Engine Optimization). Cette recherche de document entier est essentiellement une recherche algorithmique, et non une IA, puisque les données de l’index correspondent à la notation de page normale à laquelle nous sommes habitués en référencement. L’approche axée sur l’IA est connue sous le nom de « traitement des sous-documents ».

Au lieu d’indexer des pages entières, le moteur indexe des extraits spécifiques et granulaires (à ne pas confondre avec ce que les référenceurs appellent « extraits en vedette »). Un extrait, dans le langage de l’IA, comprend environ 5 à 7 jetons, ou 2 à 4 mots, sauf que le texte a été converti en nombres (par le processus fondamental de l’IA connu sous le nom de « transformateur », qui est le T dans GPT). Lorsque vous interrogez un système de sous-documents, il ne récupère pas 50 documents ; il récupère environ 130 000 jetons des extraits les plus pertinents (environ 26 000 extraits) pour alimenter l’IA.

Ces chiffres ne sont cependant pas précis. Le nombre réel d’extraits est toujours égal à un nombre total de jetons correspondant à la pleine capacité de la fenêtre contextuelle spécifique du LLM. (Actuellement, ils représentent en moyenne environ 130 000 jetons). L’objectif est de remplir complètement la fenêtre contextuelle du modèle d’IA avec les informations les plus pertinentes, car lorsque vous saturez cette fenêtre, vous ne laissez au modèle aucune place pour « halluciner » ou inventer des choses.

En d’autres termes, il cesse d’être un générateur de créativité et apporte une réponse plus précise. Cette méthode de sous-document est la direction dans laquelle l’industrie évolue et pourquoi il est plus précis de s’appeler AEO (Answer Engine Optimization).

Évidemment, cette description est un peu simpliste. Mais le contexte personnel qui fait que chaque recherche n’est plus un résultat universel pour chaque utilisateur est dû au fait que le LLM peut prendre tout ce qu’il sait sur le chercheur et l’utiliser pour remplir la fenêtre contextuelle complète. Ce qui représente bien plus d’informations qu’un profil utilisateur Google.

La différenciation concurrentielle d’une entreprise comme Perplexity, ou de toute autre société de recherche d’IA qui passe au traitement des sous-documents, se situe dans la technologie entre l’index et les extraits de 26 000. Grâce à des techniques telles que le calcul modulé, la reformulation des requêtes et des modèles propriétaires qui s’exécutent dans l’index lui-même, nous pouvons rendre ces extraits plus pertinents par rapport à la requête, ce qui constitue le principal levier pour obtenir une réponse meilleure et plus riche.

Au fait, cela est moins pertinent pour le référencement, mais tout ce concept est également la raison pour laquelle l’API de recherche de Perplexity est si légitime. Pour les développeurs qui développent la recherche sur n’importe quel produit, la différence est le jour et la nuit.

Dwyer oppose deux approches d’indexation et de récupération fondamentalement différentes :

  • Indexation de documents entiers, où les pages sont récupérées et classées en unités complètes.
  • Indexation de sous-documents, où la signification est stockée et récupérée sous forme de fragments granulaires.

Dans la première version, l’IA s’ajoute à la recherche traditionnelle et résume les pages classées. Dans le second cas, le système d’IA récupère directement des fragments et ne raisonne jamais sur des documents complets.

Il a également décrit que la qualité des réponses est limitée par la saturation de la fenêtre contextuelle et que la précision émerge en remplissant l’intégralité de la fenêtre contextuelle du modèle avec des fragments pertinents. Lorsque la récupération parvient à saturer cette fenêtre, le modèle a peu de capacité à inventer des faits ou à halluciner.

Enfin, il dit que « la modulation du calcul, de la reformulation des requêtes et des modèles propriétaires » fait partie de leur sauce secrète pour récupérer des extraits très pertinents pour la requête de recherche.