Comment les systèmes de recommandation comme Google Discover peuvent fonctionner

Google Discover est en grande partie un mystère pour les éditeurs et la communauté du marketing de recherche, même si Google a publié des directives officielles sur ce que c’est et ce qu’ils pensent que les éditeurs devraient savoir à ce sujet. Néanmoins, il est si mystérieux qu’il n’est généralement même pas considéré comme un système de recommandation, et pourtant c’est bien ce que c’est. Il s’agit d’une revue d’un document de recherche classique qui montre comment faire évoluer un système de recommandation. Même s’il s’agit de YouTube, il n’est pas difficile d’imaginer comment ce type de système peut être adapté à Google Discover.

Systèmes de recommandation

Google Discover appartient à la classe de systèmes appelés systèmes de recommandation. Un système de recommandation classique dont je me souviens est le système MovieLens datant de 1997. Il s’agit d’un projet du département scientifique de l’université qui permettait aux utilisateurs d’évaluer des films et d’utiliser ces évaluations pour recommander des films à regarder. La façon dont cela a fonctionné est la suivante : les gens qui ont tendance à aimer ce genre de films ont tendance à aimer aussi ces autres types de films. Mais ces types d’algorithmes présentent des limites qui les empêchent d’atteindre l’échelle nécessaire pour personnaliser les recommandations pour YouTube ou Google Discover.

Modèle de système de recommandation à deux tours

Le style moderne des systèmes de recommandation est parfois appelé architecture à deux tours ou modèle à deux tours. Le modèle à deux tours est apparu comme une solution pour YouTube, même si le document de recherche original (Deep Neural Networks for YouTube Recommendations) n’utilise pas ce terme.

Il peut sembler contre-intuitif de se tourner vers YouTube pour comprendre le fonctionnement de l’algorithme Google Discover, mais le fait est que le système développé par Google pour YouTube est devenu la base permettant de faire évoluer un système de recommandation pour un environnement où des quantités massives de contenu sont générées chaque heure de la journée, 24 heures sur 24.

On l’appelle l’architecture à deux tours car il y a deux représentations qui s’opposent, comme deux tours.

Dans ce modèle, qui gère la « récupération » initiale du contenu de la base de données, un réseau neuronal traite les informations utilisateur pour produire une intégration utilisateur, tandis que les éléments de contenu sont représentés par leurs propres intégrations. Ces deux représentations sont mises en correspondance à l’aide d’un score de similarité plutôt que d’être combinées au sein d’un seul réseau.

Je vais répéter que le document de recherche ne fait pas référence à l’architecture comme à une architecture à deux tours, c’est une description de ce type d’approche qui a été créée plus tard. Ainsi, même si le document de recherche n’utilise pas le mot tour, je vais continuer à l’utiliser car il permet de visualiser plus facilement ce qui se passe dans ce type de système de recommandation.

Tour utilisateur
La User Tower traite des éléments tels que l’historique des vidéos regardées d’un utilisateur, les jetons de recherche, l’emplacement et les données démographiques de base. Il utilise ces données pour créer une représentation vectorielle qui cartographie les intérêts spécifiques de l’utilisateur dans un espace mathématique.

Tour d’objets
La Item Tower représente le contenu à l’aide de vecteurs d’intégration appris. Dans la mise en œuvre originale de YouTube, ceux-ci étaient formés parallèlement au modèle utilisateur et stockés pour une récupération rapide. Cela permet au système de comparer instantanément les « coordonnées » d’un utilisateur avec des millions de « coordonnées » vidéo, sans avoir à exécuter une analyse complexe sur chaque vidéo à chaque fois que vous actualisez votre flux.

Le problème du nouveau contenu

Le document de recherche de Google propose une vision intéressante de la fraîcheur. Le problème de la fraîcheur est décrit comme un compromis entre exploitation et exploration. Le système de recommandation YouTube doit trouver un équilibre entre montrer aux utilisateurs du contenu déjà connu pour être populaire (exploitation) et les exposer à du contenu nouveau et non éprouvé (exploration). Ce qui motive Google à diffuser du contenu nouveau mais non éprouvé, du moins dans le contexte de YouTube, est que les utilisateurs manifestent une forte préférence pour le contenu nouveau et frais.

Le document de recherche explique pourquoi un nouveau contenu est important :

« De nombreuses heures de vidéos sont téléchargées chaque seconde sur YouTube. Recommander ce contenu (« frais ») récemment mis en ligne est extrêmement important pour YouTube en tant que produit. Nous observons systématiquement que les utilisateurs préfèrent le contenu récent, mais pas au détriment de la pertinence. »

Cette tendance à afficher du nouveau contenu semble être vraie pour Google Discover, où Google a tendance à afficher du nouveau contenu sur des sujets qui intéressent personnellement les utilisateurs. Avez-vous déjà remarqué à quel point Google Discover a tendance à privilégier le nouveau contenu ? Les informations dont disposaient les chercheurs sur les préférences des utilisateurs se répercutent probablement sur le système de recommandation de Google Discover. Ce qu’il faut retenir ici, c’est que la production régulière de contenu pourrait être utile pour faire apparaître des pages Web dans Google Discover.

Un aspect intéressant de ce document de recherche, et je ne sais pas si c’est toujours vrai, mais c’est quand même intéressant, c’est que les chercheurs affirment que les algorithmes d’apprentissage automatique montrent un biais implicite en faveur du contenu existant plus ancien, car ils sont formés sur des données historiques.

Ils expliquent :

« Les systèmes d’apprentissage automatique présentent souvent un biais implicite en faveur du passé, car ils sont formés pour prédire les comportements futurs à partir d’exemples historiques. »

Le réseau neuronal est entraîné sur des vidéos passées et apprend que les choses d’il y a un ou deux jours étaient populaires. Mais cela crée un biais en faveur de choses qui se sont produites dans le passé. La façon dont ils ont résolu le problème de fraîcheur est que lorsque le système recommande des vidéos à un utilisateur (diffusion), cette fonctionnalité basée sur le temps est définie sur zéro jour (ou légèrement négative). Cela indique au modèle qu’il fait une prédiction à la toute fin de la fenêtre de formation, le forçant essentiellement à prédire ce qui est populaire actuellement plutôt que ce qui l’était en moyenne dans le passé.

Précision des données de clic

Le document de recherche fondamental de Google fournit également des informations sur les signaux de retour implicites des utilisateurs, qui font référence aux données de clic. Les chercheurs affirment que ce type de données fournit rarement des informations précises sur la satisfaction des utilisateurs.

Les chercheurs écrivent :

« Bruit : le comportement historique des utilisateurs sur YouTube est intrinsèquement difficile à prédire en raison de la rareté et d’une variété de facteurs externes inobservables. Nous obtenons rarement la vérité fondamentale sur la satisfaction des utilisateurs et modélisons à la place des signaux de rétroaction implicites bruyants. De plus, les métadonnées associées au contenu sont mal structurées sans une ontologie bien définie. Nos algorithmes ont besoin
pour être robuste à ces caractéristiques particulières de nos données de formation.

Les chercheurs concluent l’article en déclarant que cette approche des systèmes de recommandation a contribué à augmenter le temps de visionnage des utilisateurs et s’est avérée plus efficace que les autres systèmes.

Ils écrivent :

« Nous avons décrit notre architecture de réseau neuronal profond pour recommander des vidéos YouTube, divisée en deux problèmes distincts : la génération de candidats et le classement.
Notre modèle de filtrage collaboratif approfondi est capable d’assimiler efficacement de nombreux signaux et de modéliser leur interaction avec des couches de profondeur, surpassant ainsi les précédentes approches de factorisation matricielle utilisées sur YouTube.

Nous avons démontré que l’utilisation de l’âge de l’exemple de formation comme fonctionnalité d’entrée supprime un biais inhérent vers le passé et permet au modèle de représenter le comportement dépendant du temps des vidéos populaires. Cela a amélioré les résultats de précision hors ligne et augmenté considérablement la durée de visionnage des vidéos récemment mises en ligne lors des tests A/B.

Le classement est un problème d’apprentissage automatique plus classique, mais notre approche d’apprentissage profond a surpassé les précédentes méthodes linéaires et arborescentes pour la prédiction de la durée de visionnage. Les systèmes de recommandation bénéficient en particulier de fonctionnalités spécialisées décrivant le comportement passé des utilisateurs avec les éléments. Les réseaux de neurones profonds nécessitent des représentations spéciales de caractéristiques catégorielles et continues que nous transformons respectivement avec des intégrations et une normalisation quantile.

Bien que ce document de recherche date de dix ans, il offre toujours un aperçu du fonctionnement des systèmes de recommandation et élimine un peu le mystère des systèmes de recommandation comme Google Discover. Lisez le document de recherche original : Réseaux de neurones profonds pour les recommandations YouTube