Les chercheurs ont testé plusieurs façons d’optimiser un site Web pour la recherche IA et ont découvert exactement quoi faire pour améliorer la visibilité. Ils ont réussi à augmenter de 115 % la visibilité des petits sites Web moins bien classés, leur donnant ainsi la possibilité de surclasser les sites d’entreprise plus grands qui dominaient normalement en haut des résultats de recherche.
Les chercheurs de l’Université de Princeton, de Georgia Tech, de l’Allen Institute for AI et de l’IIT Delhi, ont observé que leur technique d’optimisation des moteurs génératifs, appelée GEO, était capable d’augmenter la visibilité en général jusqu’à 40 %.
Neuf techniques d’optimisation ont été testées dans plusieurs domaines de connaissances (comme le droit, l’histoire, la science, etc.) et ont découvert lesquelles fonctionnaient, lesquelles ne faisaient rien et quelles approches aggravaient en réalité les classements.
Il est particulièrement intéressant de noter que certaines techniques ont particulièrement bien fonctionné pour des domaines de connaissances spécifiques, tandis que trois d’entre elles ont particulièrement bien fonctionné sur tous les types de sites.
Les chercheurs ont souligné la capacité de GEO à démocratiser le haut des résultats de recherche, en écrivant :
« Cette découverte souligne le potentiel de GEO en tant qu’outil pour démocratiser l’espace numérique.
Il est important de noter que bon nombre de ces sites Web moins bien classés sont souvent créés par de petits créateurs de contenu ou des entreprises indépendantes, qui ont traditionnellement du mal à rivaliser avec les grandes entreprises qui dominent les premiers classements dans les résultats des moteurs de recherche.
Testé sur Perplexity.AI
Les chercheurs ont testé le moteur de recherche Perplexity.ai et un moteur de recherche IA modélisé sur Bing Chat et ont constaté que les résultats étaient similaires à ceux du moteur modélisé sur Bing Chat.
Dans la section 6 du document de recherche, ils observent :
« Nous constatons que, à l’instar de notre moteur génératif, l’ajout de citations est le plus performant en termes de nombre de mots ajusté en fonction de la position, avec une amélioration relative de 22 % par rapport à la ligne de base. De plus, les méthodes qui ont bien fonctionné dans notre moteur génératif, telles que Cite Sources et Statistics Addition, montrent des améliorations élevées allant jusqu’à 9 % et 37 % sur les deux métriques.
Testé sur la recherche AI modélisée sur le chat Bing
Les chercheurs ont testé leurs méthodes sur un moteur de recherche génératif qu’ils ont créé, calqué sur le flux de travail Bing Chat, ainsi que sur Perplexity.AI, un moteur de recherche IA.
Ils écrivent:
«Nous décrivons un moteur génératif, qui comprend plusieurs modèles génératifs backend et un moteur de recherche pour la récupération des sources.
Un moteur génératif (GE) prend en entrée une requête utilisateur qu et renvoie une réponse en langage naturel r, où PU représente des informations utilisateur personnalisées, telles que les préférences et l’historique.
Les moteurs génératifs sont composés de deux composants cruciaux :
a.) Un ensemble de modèles génératifs G = {G1, G2…Gn}, chacun servant un objectif spécifique comme la reformulation ou la synthèse de requêtes, et
b.) Un moteur de recherche SE qui renvoie un ensemble de sources S = {s1, s2…sm} étant donné une requête q.
Nous présentons un workflow représentatif…, qui au moment de la rédaction, ressemble beaucoup à la conception de BingChat. Ce flux de travail décompose la requête d’entrée en un ensemble de requêtes plus simples et plus faciles à utiliser pour le moteur de recherche.
Requêtes de recherche utilisées pour les tests
Les chercheurs ont créé une référence à partir de neuf sources différentes, contenant 10 000 requêtes de recherche dans plusieurs domaines de connaissances et différents niveaux de complexité. Par exemple, certaines requêtes nécessitaient un raisonnement pour résoudre les réponses.
Le document de recherche explique :
«…nous organisons GEO-BENCH, un benchmark composé de 10 000 requêtes provenant de sources multiples, réutilisées pour les moteurs génératifs, ainsi que des requêtes générées synthétiquement. Le benchmark comprend des requêtes provenant de neuf sources différentes, chacune étant classée en fonction de son domaine cible, de sa difficulté, de l’intention de la requête et d’autres dimensions.
Voici une liste des neuf sources de requêtes de recherche :
1. MS-Macro,
2. ORQUES-1
3. Questions naturelles
4. AllSouls : cet ensemble de données contient des questions à développement de « All Souls College, Oxford University
5. LIMA : contient des questions difficiles exigeant que les moteurs génératifs non seulement regroupent des informations, mais également effectuent un raisonnement approprié pour répondre à la question.
6. Davinci-Dette
7. Perplexity.ai Discover : ces requêtes proviennent de la section Discover de Perplexity.ai, qui est une liste mise à jour des requêtes tendances.
8. ELI-5 : cet ensemble de données contient des questions du subreddit ELI5
9. Requêtes générées par GPT-4 : pour compléter la diversité dans la distribution des requêtes, nous incitons GPT-4 à générer des requêtes allant de divers domaines (par exemple : science, histoire) et basées sur l’intention de la requête (par exemple : navigation, transactionnelle) et en fonction de la difficulté. et la portée de la réponse générée (par exemple : ouverte, basée sur des faits)
Neuf stratégies de classement testées
Les chercheurs ont testé neuf méthodes différentes pour optimiser les sites Web, en suivant comment les différentes approches fonctionnaient pour différents types de recherches telles que le droit et le gouvernement, les affaires, la science, les personnes et la société, la santé, l’histoire et d’autres sujets.
Ils ont découvert que chaque type de sujet de niche répondait bien à différentes stratégies d’optimisation.
Les neuf stratégies testées sont :
Faisant autorité : changer le style d’écriture pour être plus convaincant dans les affirmations faisant autorité
Optimisation des mots clés : ajout de plus de mots clés à partir de la requête de recherche
Ajout de statistiques : modification du contenu existant pour inclure des statistiques au lieu d’informations interprétatives.
- Citer les sources (citant des sources fiables)
- Ajout de citations : ajout de citations et de citations à partir de sources de haute qualité
- Facile à comprendre : Rendre le contenu plus simple à comprendre
- L’optimisation de la fluidité consiste à rendre le contenu plus articulé
- Mots uniques : Ajout de mots moins utilisés, rares et uniques mais sans changer le sens du contenu
- Termes techniques : cette stratégie ajoute des termes à la fois uniques et techniques partout où cela a du sens et sans changer la signification du contenu.
- Citer les sources
- Ajout de devis
- Ajout de statistiques
Quelles méthodes ont le mieux fonctionné ?
Les trois principales stratégies d’optimisation étaient :
- Citer les sources
- Ajout de devis
- Ajout de statistiques
Ces trois stratégies ont obtenu des améliorations relatives de 30 à 40 % par rapport aux lignes de base.
Les chercheurs ont écrit sur le succès de ces stratégies :
« Ces méthodes, qui impliquent l’ajout de statistiques pertinentes (Statistics Addition), l’incorporation de citations crédibles (Quotation Addition) et l’inclusion de citations de sources fiables (Cite Sources) dans le contenu du site Web, nécessitent des modifications minimes du contenu lui-même.
Pourtant, ils améliorent considérablement la visibilité du site Web dans les réponses du Generative Engine, renforçant à la fois la crédibilité et la richesse du contenu.
Les méthodes d’optimisation de la fluidité et de facilité de compréhension ont également été utiles pour améliorer la visibilité de 15 à 30 %.
Ces résultats ont été interprétés par les chercheurs pour montrer comment les moteurs de recherche IA valorisent à la fois le contenu et la présentation du contenu.
Quelles stratégies d’optimisation n’ont pas fonctionné
Les chercheurs ont été surpris de découvrir que l’utilisation de tons persuasifs et faisant autorité dans le contenu n’améliorait généralement pas le classement dans les moteurs de recherche IA, pas aussi bien que les autres approches.
De même, la méthode consistant à ajouter davantage de mots-clés de la requête de recherche dans le contenu n’a pas fonctionné non plus. En fait, l’optimisation des mots clés a été moins performante que la référence de 10 %.
Les optimisations ont fonctionné différemment selon les domaines de connaissances
Une conclusion intéressante du rapport est que le type d’optimisation qui fonctionne le mieux dépend du domaine de connaissances (juridique, gouvernemental, scientifique, historique, etc.).
Ils ont constaté que le contenu lié au domaine historique était mieux classé lorsque l’optimisation « faisant autorité » était appliquée, où un langage plus convaincant était utilisé.
L’optimisation des citations, où le contenu a été amélioré avec des citations provenant de sources faisant autorité, a fonctionné de manière significative pour les requêtes de recherche factuelles.
L’ajout de statistiques a bien fonctionné pour les questions liées au droit et au gouvernement. Les statistiques ont également bien fonctionné pour la question « d’opinion » où un chercheur demande à l’IA son opinion sur quelque chose.
Les chercheurs ont observé :
« Cela suggère que l’incorporation de preuves basées sur les données peut améliorer la visibilité d’un site Web dans des contextes particuliers, en particulier dans ceux-ci. »
L’ajout de citations a bien fonctionné pour les domaines de connaissances Personnes et société, Explication et Histoire. Les chercheurs ont interprété ces résultats comme signifiant que le moteur de recherche d’IA préfère peut-être « l’authenticité » et la « profondeur » pour ce genre de questions.
Les chercheurs ont conclu que les optimisations spécifiques à un domaine constituaient la meilleure approche à adopter.
Sites Web mal classés Classement amélioré avec GEO
La bonne nouvelle de cette recherche est que les sites Web normalement mal classés bénéficieront de ces stratégies d’optimisation pour les moteurs de recherche IA.
Ils ont conclu :
« Il est intéressant de noter que les sites Web moins bien classés dans les SERP, qui ont généralement du mal à gagner en visibilité, bénéficient beaucoup plus de GEO que ceux mieux classés.
Par exemple, la méthode Citer Sources a entraîné une augmentation substantielle de 115,1 % de la visibilité des sites Web classés cinquième dans les SERP, tandis qu’en moyenne, la visibilité du site Web le mieux classé a diminué de 30,3 %.
…l’application des méthodes GEO présente une opportunité pour ces petits créateurs de contenu d’améliorer considérablement leur visibilité dans les réponses du Generative Engine.
En améliorant leur contenu à l’aide de GEO, ils peuvent atteindre un public plus large, égalisant ainsi les règles du jeu et leur permettant de rivaliser plus efficacement avec les grandes entreprises dans l’espace numérique.
Changeur de jeu pour le référencement
Cette étude de recherche montre une nouvelle voie pour le référencement en ce qui concerne les moteurs de recherche basés sur l’IA. Ceux qui disaient que l’IA Search allait vaincre le SEO ont parlé trop tôt. Cette recherche semble montrer que le SEO finira par évoluer pour devenir GEO afin de rivaliser avec la prochaine génération de moteurs de recherche IA.
Lisez l’étude de recherche ici :
GEO : optimisation du moteur génératif