Google a publié un document de recherche sur la création d’un ensemble de données stimulant pour former des agents d’IA à des recherches approfondies. Le document offre un aperçu du fonctionnement de la recherche approfondie sur l’IA agentique, ce qui implique des informations sur l’optimisation du contenu.
L’acronyme SAGE signifie Steerable Agentic Data Generation for Deep Search with Execution Feedback.
Paires de questions et réponses synthétiques
Les chercheurs ont noté que les précédents ensembles de données de formation en IA de pointe (comme Musique et HotpotQA) ne nécessitaient pas plus de quatre étapes de raisonnement pour répondre aux questions. Concernant le nombre de recherches nécessaires pour répondre à une question, Musique effectue en moyenne 2,7 recherches par question et HotpotQA en moyenne 2,1 recherches. Un autre ensemble de données couramment utilisé, nommé Natural Questions (NQ), n’a nécessité qu’une moyenne de 1,3 recherche par question.
Ces ensembles de données utilisés pour former les agents d’IA ont créé un déficit de formation pour les tâches de recherche approfondie qui nécessitaient davantage d’étapes de raisonnement et un plus grand nombre de recherches. Comment pouvez-vous former un agent IA à des tâches complexes de recherche approfondie dans le monde réel si les agents IA n’ont pas été formés pour répondre à des questions véritablement difficiles.
Les chercheurs ont créé un système appelé SAGE qui génère automatiquement des paires questions-réponses complexes et de haute qualité pour former les agents de recherche IA. SAGE est un système « à double agent » dans lequel une IA écrit une question et une seconde IA « agent de recherche » essaie de la résoudre, fournissant ainsi un retour sur la complexité de la question.
- L’objectif de la première IA est d’écrire une question à laquelle il est difficile de répondre et qui nécessite de nombreuses étapes de raisonnement et plusieurs recherches pour être résolue.
- L’objectif de la deuxième IA est d’essayer de mesurer si la question peut répondre et de calculer sa difficulté (nombre minimum d’étapes de recherche requises).
La clé de SAGE est que si la deuxième IA résout la question trop facilement ou se trompe, les étapes et les documents spécifiques qu’elle a trouvés (la trace d’exécution) sont renvoyés à la première IA. Ce retour permet à la première IA d’identifier l’un des quatre raccourcis qui permettent à la seconde IA de résoudre la question en moins d’étapes.
Ce sont ces raccourcis qui permettent de mieux se classer pour les tâches de recherche approfondies.
Quatre raisons pour lesquelles des recherches approfondies ont été évitées
L’objectif de l’article était de créer un ensemble de paires de questions et de réponses si difficiles qu’il fallait plusieurs étapes à l’agent IA pour les résoudre. Les commentaires ont montré quatre façons de rendre moins nécessaire pour l’agent d’IA d’effectuer des recherches supplémentaires pour trouver une réponse.
Quatre raisons pour lesquelles des recherches approfondies n’étaient pas nécessaires
- Colocalisation des informations
Il s’agit du raccourci le plus courant, représentant 35 % des cas où une recherche approfondie n’était pas nécessaire. Cela se produit lorsque deux ou plusieurs informations nécessaires pour répondre à une question se trouvent dans le même document. Au lieu de chercher deux fois, l’IA trouve les deux réponses en un seul « saut ». - Réduire les requêtes multiples
Cela s’est produit dans 21% des cas. La cause en est qu’une seule requête de recherche intelligente récupère suffisamment d’informations à partir de différents documents pour résoudre plusieurs parties du problème à la fois. Cela « réduit » ce qui aurait dû être un processus en plusieurs étapes en une seule étape. - Complexité superficielle
Cela représente 13 % des cas où une recherche approfondie n’était pas nécessaire. La question semble longue et compliquée pour un humain, mais un moteur de recherche (utilisé par un agent IA) peut accéder directement à la réponse sans avoir besoin de raisonner via les étapes intermédiaires. - Questions trop spécifiques
31 % des échecs sont des questions qui contiennent tellement de détails que la réponse devient évidente dès la première recherche, éliminant ainsi le besoin de toute enquête « approfondie ».
Les chercheurs ont constaté que certaines questions semblent difficiles, mais sont en réalité relativement simples car les informations sont « regroupées » dans un seul document. Si un agent peut répondre à une question à 4 sauts en 1 saut parce qu’un site Web était suffisamment complet pour avoir toutes les réponses, ce point de données est considéré comme un échec dans la formation de l’agent au raisonnement, mais cela peut toujours arriver dans la vie réelle et l’agent profitera de trouver toutes les informations sur une seule page.
Points à retenir sur le référencement
Il est possible d’avoir un aperçu des types de contenu qui satisfont à une recherche approfondie. Bien qu’il ne s’agisse pas nécessairement de tactiques permettant d’obtenir un meilleur classement dans la recherche approfondie de l’IA agentique, ces informations montrent quels types de scénarios ont amené les agents IA à trouver la totalité ou la plupart des réponses sur une seule page Web.
La « colocation d’informations » pourrait être une victoire en matière de référencement
Les chercheurs ont découvert que lorsque plusieurs éléments d’information nécessaires pour répondre à une question apparaissent dans le même document, cela réduit le nombre d’étapes de recherche nécessaires. Pour un éditeur, cela signifie que regrouper des faits « dispersés » sur une seule page évite à un agent IA d’avoir à « sauter » sur le site d’un concurrent pour trouver le reste de la réponse.
Déclenchement du « Réduction multi-requêtes »
Les auteurs ont identifié un phénomène selon lequel des informations provenant de différents documents peuvent être récupérées à l’aide d’une seule requête. En structurant le contenu pour répondre à plusieurs sous-questions à la fois, vous permettez à l’agent de trouver plus rapidement la solution complète sur votre page, « court-circuitant » efficacement la longue chaîne de raisonnement que l’agent était prêt à entreprendre.
Éliminer les « raccourcis » (l’écart de raisonnement)
Le document de recherche note que le générateur de données échoue lorsqu’il crée accidentellement un « raccourci » vers la réponse. En tant que référenceur, votre objectif est d’être ce raccourci, en fournissant des points de données spécifiques tels que des calculs, des dates ou des noms qui permettent à l’agent d’atteindre la réponse finale sans autre exploration.
L’objectif est toujours de se classer dans la recherche classique
Pour un référenceur et un éditeur, ces raccourcis soulignent l’intérêt de créer un document complet, car cela évitera à un agent d’IA d’être déclenché pour aller ailleurs. Cela ne signifie pas qu’il sera utile d’ajouter toutes les informations sur une seule page. Si cela a du sens pour un utilisateur, il peut être utile de créer un lien d’une page à une autre pour obtenir des informations connexes.
La raison pour laquelle je dis cela est que l’agent IA effectue une recherche classique à la recherche de réponses. L’objectif reste donc d’optimiser une page Web pour la recherche classique. De plus, dans cette recherche, l’agent IA extrait les trois pages Web les mieux classées pour chaque requête qu’il exécute. Je ne sais pas si c’est ainsi que fonctionne la recherche agentique par IA dans un environnement réel, mais c’est quelque chose à considérer.
En fait, l’un des tests effectués par les chercheurs a été réalisé à l’aide de l’API Serper pour extraire les résultats de recherche de Google.
Ainsi, lorsqu’il s’agit de classement dans la recherche d’IA agentique, tenez compte de ces points à retenir :
- Il peut être utile de considérer l’importance de se classer parmi les trois premiers.
- Optimisez les pages Web pour la recherche classique.
- N’optimisez pas les pages Web pour la recherche AI
- S’il est possible d’être complet, de rester sur le sujet et de se classer parmi les trois premiers, alors faites-le.
- Créez des liens vers des pages pertinentes pour aider celles-ci à se classer dans la recherche classique, de préférence dans les trois premiers (pour être sûr).
Il se pourrait que la recherche par IA agentique envisage de s’appuyer sur plus que les trois premiers de la recherche classique. Mais il peut être utile de se fixer pour objectif de se classer dans le top 3 de la recherche classique et de se concentrer sur le classement d’autres pages susceptibles de faire partie de la recherche approfondie à plusieurs sauts.
Le document de recherche a été publié par Google le 26 janvier 2026. Il est disponible au format PDF : SAGE : Steerable Agentic Data Generation for Deep Search with Execution Feedback.