Les faits sur les signaux de clic, les classements et le référencement de Google

Les clics en tant que signal lié au classement sont un sujet de débat depuis plus de vingt ans, même si de nos jours, la plupart des référenceurs comprennent que les clics ne sont pas un facteur de classement direct. La simple vérité sur les clics est qu’il s’agit de données brutes et, étonnamment, traitées avec une certaine similitude avec les scores des évaluateurs humains.

Les clics sont un signal brut

Le mémorandum antitrust du DOJ de septembre 2025 mentionne les clics comme un « signal brut » utilisé par Google. Il classe également le contenu et les requêtes de recherche comme signaux bruts. Ceci est important car un signal brut est le point de données de niveau le plus bas qui est traité en signaux de classement de niveau supérieur ou utilisé pour former un modèle comme RankEmbed et son successeur, RankEmbedBERT.

Ceux-ci sont considérés comme des signaux bruts car ils sont :

Directement observé
Mais pas encore interprété ou utilisé pour les données d’entraînement

Le document du DOJ cite le professeur James Allan, qui a témoigné en tant qu’expert au nom de Google :

« Les signaux varient en complexité. Il existe des signaux « bruts », comme le nombre de clics, le contenu d’une page Web et les termes d’une requête.

…Ces signaux peuvent être créés avec des méthodes simples, telles que le comptage des occurrences (par exemple, combien de fois une page Web a été cliquée en réponse à une requête particulière). Identifiant.
à 28 h 59 min 3–28 h 60 min 21 s (Allan) (à propos du signal Navboost) «

Il compare ensuite les signaux bruts avec la manière dont ils sont traités :

« À l’autre extrémité du spectre se trouvent les modèles innovants d’apprentissage profond, qui sont des modèles d’apprentissage automatique qui discernent des modèles complexes dans de grands ensembles de données.

Les modèles profonds trouvent et exploitent des modèles dans de vastes ensembles de données. Ils ajoutent des capacités uniques à un coût élevé.

Le professeur Allan explique que des « signaux de haut niveau » sont utilisés pour produire les scores « finaux » d’une page Web, notamment en termes de popularité et de qualité.

Les signaux bruts sont des données qui doivent être traitées ultérieurement

Navboost est mentionné à plusieurs reprises dans le document antitrust de septembre 2025 comme donnée de popularité. Cela n’est pas mentionné dans le contexte des clics ayant un effet de classement sur des sites individuels.

C’est ce qu’on appelle un moyen de mesurer la popularité et l’intention :

« …popularité mesurée par l’intention des utilisateurs et les systèmes de commentaires, notamment Navboost/Glue… »

Et ailleurs, dans le cadre d’expliquer pourquoi certaines données Navboost sont privilégiées :

« Il s’agit de la « popularité telle que mesurée par l’intention de l’utilisateur et les systèmes de retour d’information, notamment Navboost/Glue »… »

Dans le cadre d’expliquer pourquoi certaines données Navboost sont privilégiées :

« Dans le cadre du remède proposé, Google doit mettre à la disposition des concurrents qualifiés… les ensembles de données suivants :

1. Données côté utilisateur utilisées pour construire, créer ou exploiter le(s) modèle(s) statistique(s) GLUE ;

2. Données côté utilisateur utilisées pour former, créer ou exploiter le(s) modèle(s) RankEmbed ; et

3. Les données côté utilisateur utilisées comme données de formation pour les modèles GenAI utilisés dans la recherche ou tout produit GenAI pouvant être utilisé pour accéder à la recherche.

Google utilise les deux premiers ensembles de données pour créer des signaux de recherche et le troisième pour former et affiner les modèles sous-jacents aux aperçus de l’IA et (sans doute) à l’application Gemini.

Les clics, comme les scores des évaluateurs humains, ne sont qu’un signal brut qui est utilisé plus haut dans la chaîne d’algorithmes pour entraîner les modèles d’IA à mieux faire correspondre les pages Web aux requêtes ou pour générer un signal de qualité ou de pertinence qui est ensuite ajouté au reste des signaux de classement par un moteur de classement ou un moteur de modification de classement.

70 jours de journaux de recherche

Le document du DOJ fait référence à l’utilisation de 70 jours de journaux de recherche. Mais cela ne représente que onze mots dans un contexte plus large.

Voici la partie qui est fréquemment citée :

« 70 jours de journaux de recherche et de scores générés par des évaluateurs humains »

Je comprends, c’est simple et direct. Mais il y a plus de contexte :

« RankEmbed et son itération ultérieure RankEmbedBERT sont des modèles de classement qui s’appuient sur deux sources principales de données : [Redacted]% de 70 jours de journaux de recherche plus les scores générés par des évaluateurs humains et utilisés par Google pour mesurer la qualité des résultats de recherche organiques.

Les 70 jours de journaux de recherche ne sont pas des données de clic utilisées à des fins de classement dans Google, AI Mode ou Gemini. Ce sont des données globales qui sont ensuite traitées afin de former des modèles d’IA spécialisés tels que RankEmbedBERT qui, à leur tour, classent les pages Web en fonction de l’analyse du langage naturel.

Cette partie du document du DOJ ne prétend pas que Google utilise directement les données de clics pour classer les résultats de recherche. Ce sont des données, comme les données de l’évaluateur humain, qui sont utilisées par d’autres systèmes pour les données de formation ou pour être traitées ultérieurement.

Qu’est-ce que RankEmbed de Google ?

RankEmbed est une approche en langage naturel pour identifier les documents pertinents et les classer.

Le même document du DOJ explique :

« Le modèle RankEmbed lui-même est un système d’apprentissage en profondeur basé sur l’IA qui possède une solide compréhension du langage naturel. Cela permet au modèle d’identifier plus efficacement les meilleurs documents à récupérer, même si une requête manque de certains termes. «

Il est formé sur moins de données que les modèles précédents. Les données sont en partie constituées de termes de requête et de paires de pages Web :

«…RankEmbed est formé sur 1/100ème des données utilisées pour former des modèles de classement antérieurs, tout en fournissant des résultats de recherche de meilleure qualité.

… Parmi les données de formation sous-jacentes figurent des informations sur la requête, y compris les termes saillants que Google a dérivés de la requête et les pages Web qui en résultent.

Il s’agit de données d’entraînement permettant d’entraîner un modèle afin de reconnaître la pertinence des termes de requête pour les pages Web.

Le même document explique :

« Les données qui sous-tendent les modèles RankEmbed sont une combinaison de données de clic et de requête et de notation des pages Web par des évaluateurs humains. »

Il est clair que dans le contexte de ce passage spécifique, il décrit l’utilisation des données de clic (et des données d’évaluateurs humains) pour entraîner des modèles d’IA, et non pour influencer directement les classements.

Qu’en est-il du brevet de classement des clics de Google ?

En 2006, Google a déposé un brevet lié aux clics appelé : Modification du classement des résultats de recherche en fonction des commentaires implicites des utilisateurs. L’invention concerne la formule mathématique permettant de créer une « mesure de pertinence » à partir des données brutes agrégées de clics (au pluriel).

Le brevet fait la distinction entre la création du signal et l’acte de classement lui-même. La « mesure de pertinence » est transmise à un moteur de classement, qui peut ensuite l’ajouter aux scores de classement existants afin de classer les résultats de recherche pour de nouvelles recherches.

Voici ce que décrit le brevet :

« Un sous-système de classement peut inclure un moteur de modification de classement qui utilise les commentaires implicites des utilisateurs pour provoquer un reclassement des résultats de recherche afin d’améliorer le classement final.
présenté à un utilisateur d’un système de recherche d’informations.

Les sélections des utilisateurs dans les résultats de recherche (données de clic) peuvent être suivies et transformées en une fraction de clic qui peut être utilisée pour reclasser les futurs résultats de recherche.

Cette « fraction de clic » est une mesure de pertinence. L’invention décrite dans le brevet ne consiste pas à suivre le clic ; il s’agit de la mesure mathématique (la fraction de clic) qui résulte de la combinaison de tous ces clics individuels. Cela inclut le clic court, le clic moyen, le clic long et le dernier clic.

Techniquement, cela s’appelle la fraction LCIC (Clic Long divisé par Clics). Il s’agit du pluriel de « clics » car il s’agit de prendre des décisions basées sur la somme de nombreux clics (agrégats), et non sur le clic individuel.

Cette fraction de clics est un agrégat car :

Addition:
Le « premier nombre » utilisé pour le classement est la somme de tous ces clics individuels pondérés pour une paire requête-document spécifique.
Normalisation:
Il prend cette somme et la divise par le nombre total de tous les clics (le « deuxième nombre »).
Lissage statistique :
Le système applique des « facteurs de lissage » à ce nombre global pour garantir qu’un simple clic sur une requête « rare » ne fausse pas injustement les résultats, en particulier pour les spammeurs.

Ce brevet de 2006 décrit sa formule de pondération comme ceci :

« Une fraction de clics LCC de base peut être définie comme :

LCC_BASE=[#WC(Q,D)]/[#C(QD)+S0)[#C(QD)+S0)

où iWC(QD) est la somme des clics pondérés pour une paire d’URL de requête…, iC(QD) est le nombre total de clics (nombre ordinal, non pondéré) pour la paire d’URL de requête, et S0 est un facteur de lissage.

Cette formule décrit la somme et la division des données de nombreux utilisateurs pour créer une partition unique pour un document. La paire « requête-URL » est un « ensemble » de données qui stocke le comportement de clic de chaque utilisateur qui a déjà tapé cette requête spécifique et cliqué sur ce résultat de recherche spécifique. Le facteur de lissage est la partie anti-spam qui inclut le fait de ne pas compter les clics simples sur les requêtes de recherche rares.

Même en 2006, les clics ne sont que des données brutes qui sont transformées plus en amont de la chaîne à travers plusieurs étapes d’agrégation, en une mesure statistique de pertinence avant même d’atteindre l’étape de classement. Dans ce brevet, les clics eux-mêmes ne sont pas des facteurs de classement qui influencent directement le classement ou non d’un site. Ils ont été utilisés globalement comme mesure de pertinence, qui à son tour a été intégrée à un autre moteur de classement.

Au moment où les informations parviennent au moteur de classement, les données brutes sont passées des actions individuelles des utilisateurs à une mesure globale de pertinence.

Penser les clics par rapport au classement n’est pas aussi simple que les clics déterminent les classements de recherche.
Les clics ne sont que des données brutes.
Les clics sont utilisés pour former des systèmes d’IA comme RankEmbedBert.
Les clics n’influencent pas directement les résultats de recherche. Il s’agit depuis toujours de données brutes, point de départ des systèmes qui utilisent les données globalement pour créer un signal qui est ensuite intégré aux systèmes de prise de décision de classement de Google.
Alors oui, comme les données des évaluateurs humains, les données brutes sont traitées pour créer un signal ou pour entraîner des systèmes d’IA.

Lisez le mémorandum du DOJ au format PDF ici.

Découvrez quatre articles de recherche sur le CTR.

Lisez le brevet Google de 2006, Modification du classement des résultats de recherche en fonction des commentaires implicites des utilisateurs.