Google a publié un document de recherche sur un nouveau modèle d’IA pour détecter la fraude dans le système Google Ads, qui constitue une forte amélioration par rapport à ce qu’ils utilisaient auparavant. Ce qui est intéressant, c’est que le document de recherche, daté du 31 décembre 2025, indique que la nouvelle IA est déployée, ce qui entraîne une amélioration du taux de détection de plus de 40 points de pourcentage et atteint une précision de 99,8 % sur des politiques spécifiques.
ALF : modèle de grande fondation d’annonceur
La nouvelle IA s’appelle ALF (Advertiser Large Foundation Model), dont les détails ont été publiés le 31 décembre 2025. ALF est un grand modèle de base multimodal qui analyse le texte, les images et les vidéos, ainsi que des facteurs tels que l’âge du compte, les détails de facturation et les mesures de performances historiques.
Les chercheurs expliquent que bon nombre de ces facteurs pris isolément ne signaleront pas un compte comme potentiellement problématique, mais que la comparaison de tous ces facteurs permet de mieux comprendre le comportement et les intentions des annonceurs.
Ils écrivent :
» L’un des principaux défis de cet écosystème est de comprendre avec précision et efficacité l’intention et le comportement des annonceurs. Cette compréhension est essentielle pour plusieurs applications clés, notamment la mise en relation des utilisateurs avec des publicités et l’identification des fraudes et des violations des politiques. «
Relever ce défi nécessite une approche holistique, traitant divers types de données, notamment des informations structurées sur le compte (par exemple, l’âge du compte, les détails de facturation), des ressources de création publicitaire multimodales (texte, images, vidéos) et le contenu de la page de destination.
Par exemple, un annonceur peut avoir un compte récemment créé, diffuser des annonces textuelles et illustrées pour une grande marque bien connue et avoir vu un paiement par carte de crédit refusé une fois. Bien que chaque élément puisse exister innocemment de manière isolée, la combinaison suggère fortement une opération frauduleuse.
Les chercheurs abordent trois défis que les systèmes précédents n’étaient pas en mesure de surmonter :
1. Données hétérogènes et de grande dimension
Les données hétérogènes font référence au fait que les données des annonceurs se présentent sous plusieurs formats, et non sous un seul type. Cela inclut des données structurées telles que l’âge du compte et le type de facturation, ainsi que des données non structurées telles que des éléments créatifs tels que des images, du texte et des vidéos. Les données de grande dimension font référence aux centaines ou aux milliers de points de données associés à chaque annonceur, ce qui fait que la représentation mathématique de chacun d’entre eux devient de grande dimension, ce qui présente des défis pour les modèles conventionnels.
2. Ensembles illimités d’actifs créatifs
Les annonceurs peuvent disposer de milliers d’actifs créatifs, tels que des images, et en cacher un ou deux malveillants parmi des milliers d’actifs innocents. Ce scénario a submergé le système précédent.
3. Fiabilité et fiabilité dans le monde réel
Le système doit être capable de générer des scores de confiance fiables indiquant qu’une entreprise a des intentions malveillantes, car un faux positif affecterait autrement un annonceur innocent. Il faut s’attendre à ce que le système fonctionne sans avoir à le réajuster constamment pour détecter les erreurs.
Confidentialité et sécurité
Bien qu’ALF analyse des signaux sensibles tels que l’historique de facturation et les détails du compte, les chercheurs soulignent que le système est conçu avec des garanties strictes de confidentialité. Avant que l’IA ne traite des données, toutes les informations personnelles identifiables (PII) sont supprimées. Cela garantit que le modèle identifie les risques sur la base de modèles comportementaux plutôt que de données personnelles sensibles.
La sauce secrète : comment elle détecte les valeurs aberrantes
Le modèle utilise également une technique appelée « Inter-Sample Attention » pour améliorer ses capacités de détection. Au lieu d’analyser un seul annonceur en vase clos, ALF examine les « grands lots d’annonceurs » pour comparer leurs interactions les unes par rapport aux autres. Cela permet à l’IA d’apprendre à quoi ressemble une activité normale dans l’ensemble de l’écosystème et de la rendre plus précise dans la détection des valeurs aberrantes suspectes qui ne correspondent pas à un comportement normal.
Alf surpasse les références de production
Les chercheurs expliquent que leurs tests montrent qu’ALF surpasse une base de production fortement réglée :
« Nos expériences montrent qu’ALF surpasse considérablement une base de production fortement réglée tout en affichant de solides performances par rapport aux références publiques. En production, ALF offre des gains substantiels et simultanés en termes de précision et de rappel, augmentant le rappel de plus de 40 points de pourcentage sur une politique critique tout en augmentant la précision à 99,8 % sur une autre. »
Ce résultat démontre qu’ALF peut générer des gains mesurables sur plusieurs critères d’évaluation dans des conditions de production réelles, plutôt que uniquement dans des environnements hors ligne ou comparés.
Ailleurs, ils mentionnent des compromis en matière de vitesse :
« L’efficacité de cette approche a été validée par rapport à une base de production exceptionnellement solide, elle-même le résultat d’une recherche approfondie sur diverses architectures et hyperparamètres, notamment les DNN, les ensembles, les GBDT et la régression logistique avec exploration croisée des fonctionnalités.
Bien que la latence d’ALF soit plus élevée en raison de la taille plus grande de son modèle, elle reste bien dans la plage acceptable pour notre environnement de production et peut être encore optimisée à l’aide d’accélérateurs matériels. Les expériences montrent qu’ALF surpasse considérablement la référence sur les tâches clés de détection des risques, une amélioration des performances due à sa capacité unique à modéliser de manière holistique l’intégration de contenu, que les architectures plus simples avaient du mal à exploiter. Ce compromis est justifié par son déploiement réussi, où ALF répond quotidiennement à des millions de demandes.
La latence fait référence au temps nécessaire au système pour produire une réponse après réception d’une demande, et les données des chercheurs montrent que bien qu’ALF augmente ce temps de réponse par rapport à la ligne de base, la latence reste acceptable pour une utilisation en production et fonctionne déjà à grande échelle tout en offrant des performances de détection des fraudes nettement meilleures.
Détection améliorée de la fraude
Les chercheurs affirment qu’ALF est désormais déployé dans le système de sécurité Google Ads pour identifier les annonceurs qui enfreignent les politiques de Google Ads. Rien n’indique que le système est utilisé ailleurs, comme dans la recherche ou les profils d’entreprise Google. Mais ils ont déclaré que les travaux futurs pourraient se concentrer sur des facteurs temporels (« dynamiques temporelles ») pour détecter des modèles en évolution. Ils ont également indiqué que cela pourrait être utile pour la modélisation de l’audience et l’optimisation des créations.
Lisez la version PDF originale du document de recherche :
ALF : Modèle de base large d’annonceur pour une compréhension multimodale des annonceurs