Avancement significatif dans l’IA à contexte long

Google Research a présenté deux nouveaux documents de recherche, Titans et MIRAS, visant à répondre à une limitation croissante des systèmes d’IA modernes : gérer de très longues périodes d’informations sans ralentir ni perdre un contexte important. Ensemble, Titans et MIRAS s’efforcent de donner aux modèles un moyen structuré de conserver ce qui compte au fil du temps, leur permettant de suivre des documents, des conversations ou des flux de données étendus avec une plus grande continuité.

L’architecture des Titans

Titans est une famille de modèles qui utilise un module de mémoire à long terme qui apprend activement en traitant les données à l’aide d’un « métrique surprise

La métrique de surprise est un indicateur d’erreur interne, une manière mathématique de signaler : « C’est inattendu ! » Ce signal mesure la différence entre ce dont le modèle se souvient actuellement et ce que lui disent les nouvelles données entrantes. Il signale quand des informations sont inattendues ou suffisamment importantes pour être prioritaires pour un stockage à long terme.

Pour que cela soit efficace, l’architecture utilise ce que l’on appelle l’élan, une concentration soutenue, pour déterminer la quantité de longues séquences de données environnantes qu’elle enregistre réellement. Cela garantit que le modèle continue de donner la priorité aux détails pertinents qui suivent ce drapeau initial, même si ces détails ultérieurs ne sont pas surprenants individuellement.

Enfin, l’architecture Titans utilise un mécanisme d’oubli adaptatif, une manière mathématique d’effacer progressivement les informations anciennes ou moins utiles. Cela garantit que, lorsque le modèle traite de longues séquences de données, il peut abandonner des détails obsolètes pour faire place à de nouvelles informations plus pertinentes.

En combinant ces trois éléments, la métrique de surprise (ce qu’il faut remarquer), l’élan (combien enregistrer) et la perte de poids (ce qu’il faut oublier), l’architecture Titans crée un système de mémoire qui reste précis et pertinent quelle que soit la quantité de données qu’il traite.

Le cadre MIRAS

Alors que Titans est une famille de modèles spécifique, MIRAS est un cadre pour la conception de modèles séquentiels. Il reconceptualise ces architectures sous forme de mémoire associative, des modules qui apprennent à associer des points de données spécifiques les uns aux autres à l’aide d’un objectif interne qui indique au module de mémoire « comment » apprendre la relation entre différents éléments de données.

Pour construire un modèle dans ce cadre, les concepteurs font quatre choix fondamentaux :

  1. Structure de la mémoire : l’architecture physique de la mémoire elle-même, qui peut aller des simples vecteurs aux couches MLP profondes utilisées dans Titans.
  2. Biais attentionnel : objectif interne spécifique qui détermine la manière dont la mémoire hiérarchise et relie les informations entrantes.
  3. Stabilité et rétention de la mémoire : mécanisme qui équilibre l’apprentissage de nouvelles informations et la conservation de l’état passé.
  4. Algorithme de mémoire : méthode d’apprentissage utilisée pour mettre à jour la mémoire, telle que les méthodes de descente de gradient qui permettent au modèle d’apprendre au moment du test.

Le problème : l’IA peut traiter, mais elle a du mal à se souvenir

Les modèles d’IA modernes sont efficaces pour analyser les informations directement devant eux. Le défi commence alors que le contexte devient très vaste. À mesure que les documents, les ensembles de données ou les conversations s’étendent plus longtemps, les modèles sont confrontés à un compromis entre la préservation des détails et la maîtrise des coûts de calcul.

Les modèles de langage modernes gèrent généralement un contexte long de deux manières :

  1. Fenêtre d’attention
    Ils revisitent directement le texte précédent lorsque cela est nécessaire, en revenant à plusieurs reprises sur les jetons précédents pour décider de ce qui compte pour l’étape en cours.
  2. Compression d’état
    Ils compressent ce qui précède dans un résumé interne plus petit afin de pouvoir continuer à avancer, en échangeant les détails pour gagner en efficacité.

Les deux approches fonctionnent, mais chacune commence à s’effondrer à mesure que les intrants s’allongent. Avec la fenêtre d’attention, la révision répétée de données antérieures devient de plus en plus exigeante en ressources informatiques, tandis qu’avec la compression d’état, la compression de ce qui précède risque de perdre des détails qui s’avéreront plus tard importants.

La limitation n’est pas l’échelle ou la vitesse, c’est la mémoire. Les systèmes actuels ne traitent pas la mémoire comme quelque chose qui peut être délibérément géré pendant son utilisation. Au lieu de cela, ils s’appuient sur des modèles architecturaux fixes, soit en balayant vers l’arrière, soit en compressant vers l’avant, sans méthode structurée pour décider de ce qui doit être conservé sur de longues périodes.

Titans et MIRAS abordent ce problème en traitant la mémoire comme quelque chose que les modèles peuvent gérer activement plutôt que d’hériter passivement de leur architecture.

Pourquoi la recherche est présentée en deux parties

Remédier à cette limitation nécessite plus qu’un simple changement technique. Une étape consiste à montrer que les modèles peuvent réellement gérer la mémoire différemment dans la pratique. Une autre solution consiste à développer une manière de concevoir de tels systèmes de manière délibérée plutôt que de traiter chaque nouvelle architecture comme une solution unique.

Les deux articles reflètent ces besoins :

  • On introduit une méthode concrète pour donner aux modèles une forme de mémoire à long terme.
  • L’autre fournit un cadre pour comprendre et construire des modèles autour de cette idée.

Titans : ajouter une forme de mémoire à long terme

Titans se concentre sur l’aspect pratique du problème. Il introduit une architecture qui permet à un modèle d’accumuler des informations au cours de son fonctionnement. Plutôt que de retraiter à plusieurs reprises les entrées précédentes ou de tout compresser dans une petite représentation, le modèle peut reporter les informations sélectionnées au fil du temps.

Contrairement aux systèmes traditionnels qui utilisent un résumé simple de taille fixe, ce module est un réseau neuronal profond capable de capturer des informations beaucoup plus complexes et détaillées.

L’objectif est de permettre de travailler avec des entrées très longues sans parcourir le passé à plusieurs reprises ni perdre les détails clés. Titans n’est pas présenté comme un remplacement des modèles existants. Il s’agit d’une couche supplémentaire qui peut être combinée avec eux, étendant ainsi la façon dont ils gèrent le contexte plutôt que d’abandonner ce qui fonctionne déjà.

MIRAS : un cadre pour la conception de modèles basés sur la mémoire

Là où Titans introduit un mécanisme spécifique, MIRAS prend du recul et examine la question plus large de la conception. Il traite les modèles de séquence comme des systèmes qui stockent et mettent à jour les associations au fil du temps et propose une manière structurée de réfléchir à la manière dont cette mémoire devrait fonctionner.

Au lieu de considérer les architectures comme des catégories fondamentalement différentes, MIRAS les organise autour d’un petit ensemble de choix de conception liés à la manière dont les informations sont stockées, mises en correspondance, mises à jour et conservées.

MIRAS offre un moyen d’interpréter des systèmes comme Titans et d’en développer de nouveaux sans repartir de zéro.

Tester si cette approche améliore la gestion des contextes longs

Pour déterminer si cette approche basée sur la mémoire se traduit par un avantage pratique, les chercheurs l’ont évaluée par rapport aux conceptions existantes sur des tâches où la durée du contexte est extrêmement longue.

Lors d’évaluations à long terme, Titans a dépassé les 2 millions de jetons tout en conservant une précision de récupération supérieure à celle des modèles de base testés. Dans le benchmark BABILong, qui nécessite de raisonner sur des faits enfouis dans des documents massifs, les Titans ont surpassé des modèles beaucoup plus grands, y compris GPT-4, malgré un nombre nettement inférieur de paramètres.

L’article de MIRAS démontre en outre que ce succès ne se limite pas à un seul modèle. En testant plusieurs systèmes différents construits à l’aide de son cadre, les chercheurs ont montré que ces principes de conception produisent systématiquement des résultats très performants dans différentes tâches.

Ensemble, ces évaluations montrent que la mémoire active structurée permet aux modèles de maintenir une haute précision sur des ensembles de données volumineux sans le compromis habituel en termes de coût de calcul.

Les chercheurs de Titans ont expliqué leurs résultats :

« Notre évaluation expérimentale sur diverses tâches valide que les Titans sont plus efficaces que les Transformers et les récents modèles linéaires récurrents modernes, en particulier pour
contexte long. Autrement dit, les Titans peuvent s’adapter à une taille de fenêtre contextuelle supérieure à 2 millions avec une meilleure précision que les lignes de base.

Les chercheurs de MIRAS expliquent pourquoi MIRAS représente une avancée :

« Dans cet article, nous présentons Miras, un cadre général qui explique la connexion entre l’optimisation en ligne et la mémorisation du temps de test. Le cadre Miras peut expliquer le rôle de plusieurs choix architecturaux standard dans la littérature (par exemple, oublier la porte) et aide à concevoir la prochaine génération d’architectures capables de mieux gérer la mémoire. « 

En nous appuyant sur notre cadre, nous présentons trois nouveaux modèles de séquence, chacun ayant ses propres (dés)avantages. Nos évaluations expérimentales montrent que toutes ces variantes sont plus puissantes que les transformateurs et les RNN linéaires, dans diverses tâches en aval. Dans ce travail, nous présentons un ensemble diversifié de variantes utilisant Miras.

À l’avenir, explorer ces architectures alternatives pour différentes tâches en aval constitue une orientation future intéressante.

Conclusions des chercheurs

L’article Titans (PDF) conclut que la combinaison du traitement à courte portée avec une mémoire dédiée à long terme peut améliorer la façon dont les modèles gèrent les entrées étendues sans s’appuyer uniquement sur des fenêtres d’attention plus grandes ou une compression plus agressive. Il présente cela comme une capacité supplémentaire qui peut être intégrée aux architectures existantes plutôt que de les remplacer.

L’article MIRAS décrit les modèles de séquence comme des systèmes pilotés par la mémoire qui peuvent être conçus et comparés de manière plus systématique. Son cadre est destiné à guider la manière dont de tels modèles sont construits en faisant du comportement de la mémoire une dimension de conception explicite.

Les deux articles traitent la mémoire comme quelque chose que les modèles peuvent gérer délibérément : Titans en ajoutant un mécanisme capable de stocker des informations pendant l’utilisation, et MIRAS en établissant un cadre pour concevoir et comparer des modèles basés sur la mémoire.

Le billet de blog de Google explique ce qui rend Titans et MIRAS importants :

« L’introduction de Titans et du framework MIRAS marque une avancée significative dans la modélisation de séquences. En utilisant des réseaux neuronaux profonds comme modules de mémoire qui apprennent à mémoriser au fur et à mesure que les données arrivent, ces approches surmontent les limites des états récurrents de taille fixe. « 

De plus, MIRAS fournit une puissante unification théorique, révélant le lien entre l’optimisation en ligne, la mémoire associative et la conception architecturale. En allant au-delà du paradigme euclidien standard, cette recherche ouvre la porte à une nouvelle génération de modèles de séquence qui combinent l’efficacité des RNN avec la puissance d’expression nécessaire à l’ère de l’IA à contexte long.

Ensemble, ils démontrent que la voie vers de meilleures performances dans un contexte long ne consiste pas seulement à agrandir les fenêtres ou les modèles, mais également à donner à l’IA un moyen structuré de gérer ce dont elle se souvient.