Les chercheurs de Google améliorent le chiffon avec le signal de « contexte suffisant »

Les chercheurs de Google ont introduit une méthode pour améliorer la recherche d'IA et les assistants en améliorant la capacité des modèles de génération (RAG) de la récupération (RAG) à reconnaître lorsque les informations récupérées manquent de contexte suffisant pour répondre à une requête. S'ils sont mis en œuvre, ces résultats pourraient aider les réponses générées par l'AI-AI à éviter de s'appuyer sur des informations incomplètes et d'améliorer la fiabilité des réponses. Ce changement peut également encourager les éditeurs à créer du contenu avec un contexte suffisant, ce qui rend leurs pages plus utiles pour les réponses générées par l'IA.

Leurs recherches révèlent que des modèles comme les Gémeaux et le GPT tentent souvent de répondre aux questions lorsque les données récupérées contient un contexte insuffisant, conduisant à des hallucinations au lieu de s'abstenir. Pour y remédier, ils ont développé un système pour réduire les hallucinations en aidant les LLM à déterminer lorsque le contenu récupéré contient suffisamment d'informations pour soutenir une réponse.

Les systèmes de génération (RAG) (RAG) de la récupération augmentent les LLM avec un contexte externe pour améliorer la précision des questions, mais des hallucinations se produisent toujours. Il n'était pas clairement compris si ces hallucinations provenaient d'une interprétation erronée de LLM ou d'un contexte récupéré insuffisant. Le document de recherche introduit le concept de contexte suffisant et décrit une méthode pour déterminer quand suffisamment d'informations sont disponibles pour répondre à une question.

Leur analyse a révélé que des modèles propriétaires comme les Gémeaux, le GPT et Claude ont tendance à fournir des réponses correctes lorsqu'ils ont donné un contexte suffisant. Cependant, lorsque le contexte est insuffisant, ils hallucinent parfois au lieu de s'abstenir, mais ils répondent également correctement 35 à 65% du temps. Cette dernière découverte ajoute un autre défi: savoir quand intervenir pour forcer l'abstention (pour ne pas répondre) et quand faire confiance au modèle pour bien faire les choses.

Définir un contexte suffisant

Les chercheurs définissent un contexte suffisant comme signifiant que les informations récupérées (du chiffon) contient tous les détails nécessaires pour dériver une réponse correcte. La classification selon laquelle quelque chose contient un contexte suffisant ne nécessite pas qu'il s'agisse d'une réponse vérifiée. Il est d'évaluer seulement si une réponse peut être dérivée de manière plausible du contenu fourni.

Cela signifie que la classification ne vérifie pas l'exactitude. Il évalue si les informations récupérées fournissent une base raisonnable pour répondre à la requête.

Un contexte insuffisant signifie que les informations récupérées sont des détails critiques incomplets, trompeuses ou manquants nécessaires pour construire une réponse.

Contexte suffisant Autorater

Le contexte suffisant automatique est un système basé sur LLM qui classe les paires de contexte de requête comme ayant un contexte suffisant ou insuffisant. Le modèle AutoRater le plus performant était Gemini 1.5 Pro (1-Shot), atteignant un taux de précision de 93%, surpassant d'autres modèles et méthodes.

Réduire les hallucinations avec une génération sélective

Les chercheurs ont découvert que les réponses LLM à base de chiffon ont pu répondre correctement aux questions 35 à 62% du temps où les données récupérées avaient un contexte insuffisant. Cela signifiait qu'un contexte suffisant n'était pas toujours nécessaire pour améliorer la précision car les modèles ont pu retourner la bonne réponse sans cela 35 à 62% du temps.

Ils ont utilisé leur découverte sur ce comportement pour créer une méthode de génération sélective qui utilise des scores de confiance (probabilités autoévaluées que la réponse pourrait être correcte) et des signaux de contexte suffisants pour décider quand générer une réponse et quand s'abstenir (pour éviter de faire des déclarations incorrectes et hallucinant). Cela réalise un équilibre entre permettre au LLM de répondre à une question lorsqu'il y a une bonne certitude, il est correct tout en permettant à l'abstention en cas de contexte suffisant ou insuffisant pour répondre à une question.

Les chercheurs décrivent comment cela fonctionne:

«… Nous utilisons ces signaux pour former un modèle linéaire simple pour prédire les hallucinations, puis l'utiliser pour définir des seuils de compromis de la couverture-précision.
Ce mécanisme diffère des autres stratégies d'amélioration de l'abstention de deux manières clés. Premièrement, parce qu'il opère indépendamment de la génération, il atténue les effets inverses involontaires… Deuxièmement, il offre un mécanisme contrôlable pour l'abstention de réglage, ce qui permet différents paramètres opérationnels dans différentes applications, telles que la stricte de précision de la conformité dans les domaines médicaux ou la couverture maximale sur les tasks de production créatifs. »

Plats à emporter

Avant que quiconque ne commence à affirmer que la suffisance contextuelle est un facteur de classement, il est important de noter que le document de recherche ne stipule pas que l'IA privilégiera toujours les pages bien structurées. La suffisance contextuelle est un facteur, mais avec cette méthode spécifique, les scores de confiance influencent également les réponses générées par l'AI en intervenant avec les décisions d'abstention. Les seuils d'abstention s'ajustent dynamiquement en fonction de ces signaux, ce qui signifie que le modèle peut choisir de ne pas répondre si la confiance et la suffisance sont toutes deux faibles.

Bien que les pages avec des informations complètes et bien structurées soient plus susceptibles de contenir un contexte suffisant, d'autres facteurs tels que la façon dont l'IA sélectionne et classe les informations pertinentes, le système qui détermine les sources récupérées et la façon dont le LLM est formé joue également un rôle. Vous ne pouvez pas isoler un facteur sans considérer le système plus large qui détermine comment l'IA récupère et génère des réponses.

Si ces méthodes sont mises en œuvre dans un assistant AI ou un chatbot, cela pourrait conduire à des réponses générées par l'AI qui s'appuient de plus en plus sur des pages Web qui fournissent des informations complètes et bien structurées, car celles-ci sont plus susceptibles de contenir un contexte suffisant pour répondre à une requête. La clé consiste à fournir suffisamment d'informations dans une seule source afin que la réponse ait du sens sans nécessiter de recherches supplémentaires.

Que sont les pages avec un contexte insuffisant?

  • Manquant suffisamment de détails pour répondre à une requête
  • Trompeur
  • Incomplet
  • Contradictoire
  • Informations incomplètes
  • Le contenu nécessite des connaissances antérieures

Les informations nécessaires pour rendre la réponse complète sont dispersées sur différentes sections au lieu de présenter dans une réponse unifiée.

Les directives de la qualité des tiers (QRG) de Google ont des concepts similaires à la suffisance contextuelle. Par exemple, le QRG définit les pages de faible qualité comme celles qui n'atteignent pas bien leur objectif car elles ne parviennent pas à fournir des antécédents, des détails ou des informations pertinentes nécessaires pour le sujet.

Passages des directives de qualité des évaluateurs:

«Les pages de faible qualité n'atteignent pas bien leur objectif car elles manquent dans une dimension importante ou ont un aspect problématique»

« Une page intitulée » Combien de centimètres se trouvent dans un compteur?  » Avec une grande quantité de contenu hors sujet et inutile, de sorte que la très petite quantité d'informations utiles est difficile à trouver. »

«Une page de didacticiel de fabrication avec des instructions sur la façon de faire un artisanat de base et beaucoup de« remplissage »inutile en haut, comme des faits communément connus sur les fournitures nécessaires ou d'autres informations non réalisées.»

«… Une grande quantité de« remplissage »ou de contenu dénué de sens…»

Même si les Gemini ou les aperçus de l'IA de Google ne mettent pas en œuvre les inventions de ce document de recherche, bon nombre des concepts qui y sont décrits présentent des analogues dans les directives de Google de la qualité de la qualité qui décrivent elles-mêmes des concepts sur des pages Web de haute qualité que les référencement et les éditeurs qui souhaitent classer devraient être internalisés.

Lire le document de recherche:

Contexte suffisant: un nouvel objectif sur les systèmes de génération augmentée de récupération