Les données utilisateur sont importantes dans les systèmes de classement de Google. Ce que nous avons appris de la déclaration d’appel de Liz Reid

J’ai trouvé des choses intéressantes dans le dernier document de l’essai DOJ contre Google. Google a fait appel de la décision selon laquelle il doit fournir des informations confidentielles à ses concurrents.

Points clés à retenir :

  • Google a été sommé de fournir des informations à ses concurrents afin de ne pas constituer un monopole illégal. Google ne veut pas divulguer ses nombreuses données utilisateur.
  • Les données de Google sur la qualité et la fraîcheur des pages sont exclusives. Ils ne veulent pas le donner.
  • Les pages indexées sont balisées avec des annotationsy compris des signaux qui identifient les pages de spam.
  • Si les spammeurs mettaient la main sur ces signaux de spam, il serait difficile de stopper le spam.
  • Les données utilisateur sont importantes pour le système Glue de Google qui stocke des informations sur chaque requête recherchée, ce que l’utilisateur a vu et comment il a interagi avec les résultats de la recherche.
  • Les données utilisateur sont importantes pour la formation RankEmbed BERT – l’un des systèmes d’apprentissage profond derrière Search.

OK, passons aux choses intéressantes !

Google dispose de signaux propriétaires de qualité et de fraîcheur des pages

Ce n’est vraiment pas une surprise. J’ai trouvé intéressant que les signaux de fraîcheur soient au cœur des secrets exclusifs de Google.

Encore une fois, voici davantage sur l’importance des signaux de fraîcheur exclusifs de Google :

Les pages explorées sont balisées avec des « annotations de compréhension de page propriétaire »

Chaque page de l’index de Google est marquée d’annotations pour l’aider à comprendre la page. Ceux-ci incluent des signaux pour identifier le spam et les pages en double. J’ai déjà écrit sur la façon dont chaque page de l’index a un score de spam.

Les scores de spam pourraient être utilisés pour effectuer une ingénierie inverse des systèmes de classement

Google ne souhaite pas partager d’informations avec ses concurrents sur ces scores.

Si les scores de spam sont révélés, cela pourrait entraîner davantage de spam et plus de difficultés pour Google dans sa lutte contre le spam.

Google crée l’index à l’aide de ces pages balisées

Les pages sur lesquelles Google a ajouté des annotations de compréhension de page sont organisées en fonction de la fréquence à laquelle Google s’attend à ce que le contenu doive être consulté et de la fraîcheur du contenu.

Seule une fraction des pages figure dans l’index de Google

Google affirme que donner à ses concurrents une liste d’URL indexées leur permettra de « renoncer à explorer et à analyser le Web dans son ensemble, et de concentrer leurs efforts sur l’exploration uniquement de la fraction des pages que Google a incluses dans son index ». La création de cet index coûte beaucoup de temps et d’argent à Google. Ils ne veulent pas le donner gratuitement.

Le rôle des données utilisateur dans les systèmes de classement de Google

C’est la partie la plus intéressante. J’ai l’impression que nous ne prêtons pas suffisamment attention à l’utilisation par Google des données des utilisateurs. (Restez à l’écoute de mon Chaîne YouTube car je suis bientôt sur le point de publier une vidéo très intéressante avec mes réflexions sur l’importance des données côté utilisateur – probablement le facteur LE PLUS important dans les systèmes de classement de Google.)

Les données utilisateur sont utilisées pour créer des modèles GLUE et RankEmbed

Google Glue est un énorme tableau d’activité des utilisateurs. Il collecte le texte des requêtes recherchées, la langue, l’emplacement et le type d’appareil de l’utilisateur, ainsi que des informations sur ce qui est apparu sur le SERP, sur quoi l’utilisateur a cliqué ou survolé, combien de temps il est resté sur un SERP, et plus encore.

RankEmbed BERT est encore plus intéressant. RankEmbed BERT est l’un des systèmes d’apprentissage en profondeur qui sous-tendent la recherche. Dans le Pandu Nayak témoignage, nous avons appris que RankEmbed BERT est utilisé pour reclasser les résultats renvoyés par les systèmes de classement traditionnels. RankEmbed BERT est formé sur les données de clics et de requêtes des utilisateurs réels.

Les systèmes d’IA derrière la recherche apprennent continuellement à s’améliorer pour présenter aux chercheurs des résultats satisfaisants. Google examine sur quoi ils cliquent et s’ils reviennent ou non aux SERP. Google mène également des expériences en direct qui examinent ce sur quoi les chercheurs choisissent de cliquer et de rester. Ces actions aident à former RankEmbed BERT. Il est ensuite affiné par les notes des évaluateurs de qualité. Je publierai bientôt davantage à ce sujet. Le point à retenir sur lequel je veux insister est que la satisfaction des utilisateurs est de loin la chose la plus importante pour laquelle nous devrions optimiser !

À partir du document de Liz Reid que nous analysons aujourd’hui, nous pouvons voir que les données des utilisateurs sont utilisées pour former, créer et exploiter des modèles RankEmbed.

Une fois de plus, nous apprenons que les données utilisateur utilisées pour entraîner ces modèles incluent la requête, l’emplacement, l’heure de la recherche et la manière dont l’utilisateur a interagi avec ce qui lui a été affiché.

Il s’agit des actions que les utilisateurs effectuent à partir des résultats de recherche Google. Ce que je veux vraiment savoir, c’est quel rôle jouent les données Chrome. Google vérifie-t-il si les internautes interagissent avec vos pages, remplissent vos formulaires, préparent vos recettes, etc. ? Je pense que oui. Le résumé du jugement de ce procès laisse entendre que les données Chrome sont utilisées dans les systèmes de classement, mais peu de détails sont partagés.

Google dit que si quelqu’un disposait des données utilisateur Glue et RankEmbed, il pourrait former un LLM avec

Ces données utilisateur sont la clé du succès de Google.

Cela vaut la peine de lire l’intégralité déclaration de Liz Reid.

Plus de ressources :


Cet article a été initialement publié sur Marie Haynes Consulting.