Google Research a publié un article qui étudie comment faire en sorte que les systèmes d’IA générative produisent des réponses qui font plus que paraître plausibles. Les chercheurs affirment que leur cadre ALDRIFT « ouvre des voies passionnantes » pour aller au-delà des réponses qui ont simplement une forte probabilité.
Le document, intitulé «Optimisation efficace des échantillons par rapport aux priorités génératives via une capacité d’apprentissage grossière« , examine un problème dans lequel les réponses générées doivent rester probables dans le cadre d’un modèle tout en évoluant vers un objectif distinct. La recherche ouvre de nouvelles voies pour résoudre le piège de plausibilité de l’IA.
Google ALDRIFT
Les preuves contenues dans l’article se concentrent sur un cadre appelé ALDRIFT (Algorithm Driven Iterated Fitting of Targets). Le procédé affine de manière répétée un modèle génératif vers des réponses moins coûteuses et utilise une étape de correction pour réduire les erreurs accumulées au cours du processus.
Le document introduit également « l’apprentissage grossier ». Le terme signifie que le modèle appris n’a pas besoin de correspondre parfaitement à la cible idéale. Il doit conserver une couverture suffisante sur des parties importantes de l’espace de réponse afin que les possibilités utiles ne soient pas perdues trop tôt. Sous cette hypothèse, les auteurs prouvent qu’ALDRIFT peut approximer la distribution cible avec un nombre polynomial d’échantillons.
ALDRIFT fonctionne sur une configuration en deux parties
ALDRIFT fonctionne sur une configuration en deux parties :
- Le modèle génératif représente les types de réponses qui restent probables dans le cadre du modèle.
- Le processus de notation externe mesure si la réponse d’un candidat fonctionne bien par rapport à l’objectif cible.
Les auteurs décrivent ce score comme un « coût ». Le mot « coût » fait référence à la pénalité mesurée attribuée à une réponse candidate. Un coût inférieur signifie que le candidat a obtenu de meilleurs résultats selon l’exigence vérifiée. ALDRIFT ne recherche pas simplement une réponse à faible coût. Il recherche des réponses qui obtiennent de bons résultats tout en restant probables selon le modèle génératif.
Certaines réponses de l’IA doivent fonctionner dans leur ensemble
Les chercheurs se concentrent sur les réponses de l’IA aux problèmes où la réponse doit fonctionner dans le monde réel, comme leurs exemples de planification d’itinéraires et de planification de conférences.
- Planification d’itinéraire : le document explique qu’un LLM peut évaluer si des segments d’itinéraire individuels sont pittoresques, mais peut avoir du mal à garantir que ces segments se connectent à un chemin valide.
- Planification de la conférence : un LLM peut regrouper les sessions par sujet, tandis qu’un algorithme classique peut être nécessaire pour planifier ces sessions dans un emploi du temps sans conflits.
Ces exemples montrent pourquoi le document considère les réponses plausibles comme une partie seulement du problème. Le problème le plus difficile est de produire des réponses qui restent cohérentes lorsque des parties distinctes doivent travailler ensemble pour former une solution complète.
L’hypothèse de l’apprentissage grossier
L’article traite cela comme un problème consistant à guider un modèle génératif vers des réponses qui tiennent ensemble dans toutes ses parties. Les auteurs relient le problème à l’alignement du temps d’inférence, où un modèle est ajusté pendant son utilisation selon qu’une réponse spécifique fonctionne comme une solution complète. Ce lien confère à la recherche une pertinence pratique, même si la contribution de l’article reste théorique et dépend de l’hypothèse d’apprentissage grossier.
L’expression « hypothèse d’apprentissage grossier » signifie que la théorie de l’article dépend de l’hypothèse selon laquelle le modèle peut conserver suffisamment de possibilités utiles disponibles pendant qu’il est poussé vers de meilleures réponses.
Cela ne signifie pas que le modèle doit parfaitement apprendre la cible. Cela signifie que le modèle doit préserver une couverture suffisante de l’espace de réponse afin que le processus ne se bloque pas trop tôt ou ne perde pas de meilleures réponses possibles.
Les méthodes d’optimisation existantes laissent des lacunes limitées à des échantillons
L’article identifie plusieurs lacunes dans la manière dont les méthodes d’optimisation existantes sont comprises :
- Limitation des méthodes existantes : Les méthodes classiques d’optimisation basées sur des modèles s’appuient sur des « arguments de convergence asymptotique ». Cela signifie qu’ils sont théoriquement compris après de très grandes quantités d’échantillonnage, mais pas nécessairement dans des contextes pratiques avec des échantillons limités.
- Échec avec les modèles expressifs : L’article indique que ces hypothèses classiques « s’effondrent » lors de l’utilisation de modèles génératifs expressifs tels que les réseaux de neurones.
- Lacune dans la compréhension : Les auteurs affirment que le « comportement d’échantillonnage fini » de l’optimisation dans ce contexte est « théoriquement non caractérisé ». Cela signifie que la théorie n’explique pas complètement le comportement de ces méthodes lorsque seuls des échantillons limités sont disponibles.
La solution proposée dans cet article consiste à introduire la « capacité d’apprentissage grossière » pour expliquer comment un modèle génératif peut être poussé vers de meilleures réponses tout en gardant suffisamment de possibilités utiles disponibles en cours de route.
Les preuves LLM sont limitées
La principale preuve de l’article s’applique aux modèles analytiques génératifs, qui sont plus faciles à analyser mathématiquement que les LLM modernes. Les preuves du LLM sont plus limitées : les auteurs utilisent GPT-2 dans des problèmes simples de planification et liés aux graphiques, montrant un comportement qui soutient l’idée sans prouver que les mêmes hypothèses sont valables pour les LLM modernes.
La recherche pointe vers une base pour la recherche future
L’article propose une base théorique pour étudier la manière dont les modèles génératifs pourraient être combinés avec des processus de vérification externes.
La recherche montre que les chercheurs de Google explorent un cadre pour résoudre le problème de la « réponse plausible », et les auteurs écrivent que le « cadre ouvre des voies passionnantes pour des recherches futures ». Ils concluent que cette recherche pointe « vers une base de principe pour les modèles génératifs adaptatifs ».
Points à retenir
- L’exigence de « couverture » :
L’apprentissage grossier signifie que le modèle n’a pas besoin d’apprendre parfaitement la cible. Il doit éviter de perdre des zones utiles de l’espace de réponse où de meilleures solutions pourraient exister. - L’étape de correction est importante :
ALDRIFT utilise une étape de correction pour maintenir la recherche plus proche de la cible prévue à mesure que le modèle est poussé vers de meilleures réponses. - Approche en deux parties :
Le cadre utilise une division du travail. Le modèle génératif gère les préférences qualitatives ou sémantiques, tandis qu’un processus distinct vérifie si la réponse fonctionne comme une solution complète. - Preuve LLM limitée :
Les tests avec GPT-2 ont montré un comportement qui soutient l’idée dans des exemples simples de planification et liés aux graphiques, mais ne prouvent pas que les mêmes hypothèses sont valables pour les LLM modernes. - L’utilisation dans le monde réel est l’objectif le plus large :
La recherche est importante pour les référenceurs et les entreprises, car on s’attend de plus en plus à ce que les réponses de l’IA fassent plus que résumer des informations. Ils doivent soutenir les décisions, les plans et les actions qui tiennent ensemble en dehors de l’interface de chat. Bien que le cadre ne soit probablement pas utilisé en production, il montre que Google progresse en fournissant des réponses plus que plausibles.
Lisez le document de recherche ici :
Optimisation efficace des échantillons par rapport aux priorités génératives via l’apprentissage grossier (PDF)