Google DeepMind a publié un document de recherche proposant un modèle de langage appelé RecurrentGemma qui peut égaler ou dépasser les performances des modèles basés sur des transformateurs tout en étant plus efficace en mémoire, offrant la promesse de performances de modèles de langage à grande échelle dans des environnements à ressources limitées.
Le document de recherche offre un bref aperçu :
« Nous introduisons RecurrentGemma, un modèle de langage ouvert qui utilise la nouvelle architecture Griffin de Google. Griffin combine des récurrences linéaires avec une attention locale pour obtenir d'excellentes performances sur le langage. Il possède un état de taille fixe, ce qui réduit l'utilisation de la mémoire et permet une inférence efficace sur de longues séquences. Nous fournissons un modèle pré-entraîné avec des paramètres 2B non intégrés et une variante optimisée pour les instructions. Les deux modèles atteignent des performances comparables à celles du Gemma-2B bien qu’ils soient formés avec moins de jetons.
Connexion à Gemma
Gemma est un modèle ouvert qui utilise la technologie Gemini de haut niveau de Google, mais qui est léger et peut fonctionner sur des ordinateurs portables et des appareils mobiles. Semblable à Gemma, RecurrentGemma peut également fonctionner dans des environnements aux ressources limitées. D'autres similitudes entre Gemma et RecurrentGemma résident dans les données de pré-entraînement, le réglage des instructions et le RLHF (Reinforcement Learning From Human Feedback). RLHF est un moyen d'utiliser le feedback humain pour entraîner un modèle à apprendre par lui-même, pour l'IA générative.
Architecture du Griffon
Le nouveau modèle est basé sur un modèle hybride appelé Griffin annoncé il y a quelques mois. Griffin est qualifié de modèle « hybride » car il utilise deux types de technologies, l'une qui lui permet de gérer efficacement de longues séquences d'informations tandis que l'autre lui permet de se concentrer sur les parties les plus récentes de l'entrée, ce qui lui donne la capacité de traiter « significativement » plus de données (débit accru) dans le même laps de temps que les modèles basés sur un transformateur et diminuent également le temps d'attente (latence).
Le document de recherche Griffin proposait deux modèles, l'un appelé Hawk et l'autre nommé Griffin. Le document de recherche Griffin explique pourquoi il s’agit d’une avancée majeure :
«… nous validons empiriquement les avantages de Hawk et Griffin en termes de temps d'inférence et observons une latence réduite et un débit considérablement accru par rapport à nos références Transformer. Enfin, Hawk et Griffin présentent la capacité d’extrapoler sur des séquences plus longues que celles sur lesquelles ils ont été formés et sont capables d’apprendre efficacement à copier et récupérer des données sur de longs horizons. Ces résultats suggèrent fortement que les modèles proposés offrent une alternative puissante et efficace aux transformateurs avec une attention mondiale.
La différence entre Griffin et RecurrentGemma réside dans une modification liée à la façon dont le modèle traite les données d'entrée (intégrations d'entrée).
Percées
Le document de recherche indique que RecurrentGemma offre des performances similaires ou supérieures à celles du modèle de transformateur Gemma-2b plus conventionnel (qui a été formé sur 3 000 milliards de jetons contre 2 000 milliards pour RecurrentGemma). C'est en partie la raison pour laquelle le document de recherche est intitulé « Passer au-delà des modèles de transformateur », car il montre un moyen d'obtenir des performances plus élevées sans la surcharge de ressources élevée de l'architecture du transformateur.
Un autre avantage par rapport aux modèles de transformateur réside dans la réduction de l'utilisation de la mémoire et des temps de traitement plus rapides. Le document de recherche explique :
« L’un des principaux avantages de RecurrentGemma est qu’il a une taille d’état nettement plus petite que celle des transformateurs sur de longues séquences. Alors que le cache KV de Gemma augmente proportionnellement à la longueur de la séquence, l'état de RecurrentGemma est limité et n'augmente pas sur les séquences plus longues que la taille de la fenêtre d'attention locale de 2 000 jetons. Par conséquent, alors que l’échantillon le plus long pouvant être généré de manière autorégressive par Gemma est limité par la mémoire disponible sur l’hôte, RecurrentGemma peut générer des séquences de longueur arbitraire.
RecurrentGemma bat également le modèle de transformateur Gemma en termes de débit (quantité de données pouvant être traitées, plus c'est élevé, mieux c'est). Le débit du modèle de transformateur souffre de longueurs de séquence plus élevées (augmentation du nombre de jetons ou de mots) mais ce n'est pas le cas de RecurrentGemma qui est capable de maintenir un débit élevé.
Le document de recherche montre :
« Dans la figure 1a, nous traçons le débit obtenu lors de l'échantillonnage à partir d'une invite de 2 000 jetons pour une plage de longueurs de génération. Le débit calcule le nombre maximum de jetons que nous pouvons échantillonner par seconde sur un seul appareil TPUv5e.
…RecurrentGemma atteint un débit plus élevé pour toutes les longueurs de séquence prises en compte. Le débit atteint par RecurrentGemma ne diminue pas à mesure que la longueur de la séquence augmente, tandis que le débit atteint par Gemma diminue à mesure que le cache augmente.
Limites de RecurrentGemma
Le document de recherche montre que cette approche comporte ses propres limites, dans la mesure où les performances sont en retard par rapport aux modèles de transformateurs traditionnels.
Les chercheurs soulignent une limitation dans la gestion de très longues séquences, ce que les modèles de transformateurs sont capables de gérer.
Selon le journal :
« Bien que les modèles RecurrentGemma soient très efficaces pour les séquences plus courtes, leurs performances peuvent être en retard par rapport aux modèles de transformateurs traditionnels comme Gemma-2B lors du traitement de séquences extrêmement longues qui dépassent la fenêtre d'attention locale. »
Ce que cela signifie pour le monde réel
L'importance de cette approche des modèles de langage est qu'elle suggère qu'il existe d'autres moyens d'améliorer les performances des modèles de langage tout en utilisant moins de ressources de calcul sur une architecture qui n'est pas un modèle de transformateur. Cela montre également qu'un modèle sans transformateur peut surmonter l'une des limitations de la taille du cache du modèle de transformateur qui a tendance à augmenter l'utilisation de la mémoire.
Cela pourrait conduire dans un avenir proche à des applications de modèles de langage capables de fonctionner dans des environnements aux ressources limitées.
Lisez le document de recherche de Google DeepMind :
RecurrentGemma : Dépasser les transformateurs pour des modèles de langage ouvert efficaces (PDF)