Google a publié un document de recherche sur une nouvelle technologie appelée Infini-attention qui lui permet de traiter d'énormes quantités de données avec des « contextes infiniment longs » tout en étant capable d'être facilement inséré dans d'autres modèles pour améliorer considérablement leurs capacités.
Cette dernière partie devrait intéresser ceux qui s'intéressent à l'algorithme de Google. Infini-Attention est plug-and-play, ce qui signifie qu'il est relativement facile à insérer dans d'autres modèles, y compris ceux utilisés par l'algorithme de base de Google. La partie concernant les « contextes infiniment longs » peut avoir des implications sur le fonctionnement de certains systèmes de recherche de Google.
Le nom du document de recherche est : Ne laissez aucun contexte derrière : des transformateurs de contexte infinis efficaces avec une attention infinie
La mémoire est coûteuse en calcul pour les LLM
Les grands modèles linguistiques (LLM) ont des limites quant à la quantité de données qu'ils peuvent traiter simultanément, car la complexité informatique et l'utilisation de la mémoire peuvent augmenter considérablement. Infini-Attention donne au LLM la possibilité de gérer des contextes plus longs tout en conservant la mémoire et la puissance de traitement nécessaires.
Le document de recherche explique :
« La mémoire constitue la pierre angulaire de l’intelligence, car elle permet des calculs efficaces adaptés à des contextes spécifiques. Cependant, les Transformers… et les LLM basés sur Transformer… ont une mémoire contrainte et dépendante du contexte, en raison de la nature du mécanisme d'attention.
En effet, la mise à l'échelle des LLM vers des séquences plus longues (c'est-à-dire 1 million de jetons) est un défi avec les architectures Transformer standard et servir des modèles de contexte de plus en plus longs devient coûteux financièrement.
Et ailleurs, le document de recherche explique :
« Les modèles de transformateurs actuels sont limités dans leur capacité à traiter de longues séquences en raison de l'augmentation quadratique des coûts de calcul et de mémoire. Infini-attention vise à résoudre ce problème d’évolutivité.
Les chercheurs ont émis l’hypothèse qu’Infini-attention peut évoluer pour gérer des séquences extrêmement longues avec Transformers sans l’augmentation habituelle des ressources de calcul et de mémoire.
Trois caractéristiques importantes
Infini-Attention de Google résout les lacunes des modèles de transformateur en incorporant trois fonctionnalités qui permettent aux LLM basés sur un transformateur de gérer des séquences plus longues sans problèmes de mémoire et d'utiliser le contexte des données antérieures de la séquence, et pas seulement les données proches du point en cours de traitement.
Les fonctionnalités d’Infini-Attention
- Système de mémoire compressive
- Attention linéaire à long terme
- Attention masquée locale
Système de mémoire compressive
Infini-Attention utilise ce qu'on appelle un système de mémoire compressive. À mesure que davantage de données sont saisies (dans le cadre d'une longue séquence de données), le système de mémoire compressive compresse certaines des informations les plus anciennes afin de réduire la quantité d'espace nécessaire pour stocker les données.
Attention linéaire à long terme
Infini-attention utilise également ce qu'on appelle des « mécanismes d'attention linéaire à long terme » qui permettent au LLM de traiter des données qui existent plus tôt dans la séquence de données en cours de traitement, ce qui permet de conserver le contexte. Cela s'écarte des LLM standards basés sur un transformateur.
Ceci est important pour les tâches où le contexte existe sur un plan de données plus large. C'est comme être capable de discuter d'un livre entier et de tous les chapitres et d'expliquer comment le premier chapitre est lié à un autre chapitre plus près de la fin du livre.
Attention masquée locale
En plus de l’attention à long terme, Infini-attention utilise également ce qu’on appelle l’attention masquée locale. Ce type d'attention traite des parties proches (localisées) des données d'entrée, ce qui est utile pour les réponses qui dépendent des parties les plus proches des données.
La combinaison de l'attention à long terme et locale aide à résoudre le problème des transformateurs limités à la quantité de données d'entrée qu'ils peuvent mémoriser et utiliser pour le contexte.
Les chercheurs expliquent :
« L'Infini-attention intègre une mémoire compressive dans le mécanisme d'attention vanille et intègre à la fois une attention locale masquée et des mécanismes d'attention linéaire à long terme dans un seul bloc Transformer. »
Résultats des expériences et des tests
Infini-attention a été testé avec d'autres modèles à des fins de comparaison sur plusieurs tests impliquant de longues séquences d'entrée, tels que la modélisation de langage à contexte long, la récupération de clés d'accès et les tâches de résumé de livres. La récupération de clé d'accès est un test dans lequel le modèle de langage doit récupérer des données spécifiques à partir d'une séquence de texte extrêmement longue.
Liste des trois tests :
- Modélisation du langage à contexte long
- Test de clé d'accès
- Résumé du livre
Modélisation du langage à contexte long et score de perplexité
Les chercheurs écrivent que l'Infini-attention a surpassé les modèles de base et que l'augmentation de la durée de la séquence d'entraînement a apporté des améliorations encore plus importantes. Score de perplexité. Le score de perplexité est une mesure qui mesure les performances du modèle de langage, les scores les plus faibles indiquant de meilleures performances.
Les chercheurs ont partagé leurs conclusions :
« Infini-Transformer surpasse à la fois les lignes de base du Transformer-XL… et des Memorizing Transformers tout en conservant 114 fois moins de paramètres de mémoire que le modèle Memorizing Transformer avec une mémoire KV basée sur la récupération vectorielle d'une longueur de 65 Ko au niveau de sa 9ème couche. Infini-Transformer surpasse les transformateurs de mémorisation avec une longueur de mémoire de 65 Ko et atteint un taux de compression de 114x.
Nous avons encore augmenté la longueur de la séquence de formation de 32 000 à 100 000 et formé les modèles sur l'ensemble de données Arxiv-math. La formation de 100 000 km a encore réduit le score de perplexité à 2,21 et 2,20 pour les modèles Linéaire et Linéaire + Delta. »
Test de clé d'accès
Le test du mot de passe consiste à cacher un nombre aléatoire dans une longue séquence de texte, la tâche étant que le modèle doit récupérer le texte caché. Le mot de passe est masqué au début, au milieu ou à la fin du texte long. Le modèle a pu résoudre le test du mot de passe jusqu'à une longueur de 1 million.
«Un LLM 1B s'adapte naturellement à une longueur de séquence de 1M et résout la tâche de récupération du mot de passe lorsqu'il est injecté avec Infini-attention. Infini-Transformers a résolu la tâche de clé d'accès avec une longueur de contexte allant jusqu'à 1 M lors d'un réglage fin sur des entrées de longueur 5K. Nous rapportons la précision de récupération au niveau du jeton pour les clés d'accès cachées dans une partie différente (début/milieu/fin) des entrées longues d'une longueur de 32 Ko à 1 M. «
Test de résumé du livre
Infini-attention a également excellé lors du test de résumé du livre en surpassant les meilleurs standards et en atteignant de nouveaux niveaux de performance de pointe (SOTA).
Les résultats sont décrits :
«Enfin, nous montrons qu'un modèle 8B avec Infini-attention atteint un nouveau résultat SOTA sur une tâche de résumé de livre d'une longueur de 500 000 après une pré-formation continue et un réglage fin de la tâche.
…Nous avons encore étendu notre approche en pré-entraînant en permanence un modèle LLM 8B avec une longueur d'entrée de 8 000 pour 30 000 étapes. Nous avons ensuite affiné une tâche de résumé de livre, BookSum (Kry´sci´nski et al., 2021), dont l'objectif est de générer un résumé du texte complet d'un livre.
Notre modèle surpasse les meilleurs résultats précédents et obtient un nouveau SOTA sur BookSum en traitant l'intégralité du texte du livre. … Il existe une tendance claire montrant qu'avec plus de texte fourni en tant qu'entrée de livres, nos Infini-Transformers améliorent leurs mesures de performances de synthèse.
Implications d'Infini-Attention pour le référencement
Infini-attention est une percée dans la modélisation de l'attention à longue et courte portée avec une plus grande efficacité que les modèles précédents sans Infini-attention. Il prend également en charge « la pré-formation continue plug-and-play et l'adaptation au contexte long.
by design » ce qui signifie qu’il peut facilement être intégré dans des modèles existants.
Enfin, le « pré-entraînement continu et l'adaptation au contexte long » le rendent exceptionnellement utile pour les scénarios où il est nécessaire de former constamment le modèle sur de nouvelles données. Cette dernière partie est super intéressante car elle peut être utile pour les applications situées en arrière-plan des systèmes de recherche de Google, en particulier lorsqu'il est nécessaire de pouvoir analyser de longues séquences d'informations et d'en comprendre la pertinence à partir d'une partie proche du début de la séquence. et une autre partie qui est plus proche de la fin.
D'autres articles se sont concentrés sur les « entrées infiniment longues » dont ce modèle est capable, mais là où il est pertinent pour le référencement, c'est la façon dont cette capacité à gérer d'énormes entrées et « Ne laisser aucun contexte derrière » est ce qui est pertinent pour le marketing de recherche et comment certains systèmes de Google pourraient fonctionnerait si Google adaptait Infini-attention à son algorithme de base.
Lire le document de recherche :
Ne laissez aucun contexte derrière : des transformateurs de contexte infinis efficaces avec une attention infinie