Quels sont les principaux systèmes d’actualité de Google ?

L'actualité par rapport aux algorithmes de classement de recherche est devenue intéressante pour le référencement après qu'un récent podcast Google Search Off The Record a mentionné l'existence de systèmes d'actualité de base dans le cadre des algorithmes de classement. Il peut donc être utile de réfléchir à ce que pourraient être ces systèmes et à ce que cela signifie pour le référencement.

On ne sait pas grand-chose sur ce qui pourrait faire partie de ces systèmes de topicité de base, mais il est possible de déduire de quoi il s'agit. La documentation de Google pour sa recherche commerciale dans le cloud propose une définition de la topicité qui, bien qu'elle ne soit pas dans le contexte de son propre moteur de recherche, donne néanmoins une idée utile de ce que Google pourrait vouloir dire lorsqu'il fait référence aux systèmes de topicité de base.

Voici comment cette documentation cloud définit l'actualité :

« L’actualité fait référence à la pertinence d’un résultat de recherche par rapport aux termes de la requête d’origine. »

Voilà une bonne explication de la relation entre les pages Web et les requêtes de recherche dans le contexte des résultats de recherche. Il n'y a aucune raison de rendre les choses plus compliquées que cela.

Comment atteindre la pertinence ?

Un point de départ pour comprendre ce qui pourrait être un composant des systèmes d'actualité de Google est de commencer par la façon dont les moteurs de recherche comprennent les requêtes de recherche et représentent les sujets dans les documents de pages Web.

  • Comprendre les requêtes de recherche
  • Comprendre les sujets

Comprendre les requêtes de recherche

On peut dire que comprendre ce que veulent dire les utilisateurs revient à comprendre le sujet qui intéresse un utilisateur. Il existe une qualité taxinomique dans la façon dont les gens effectuent des recherches, dans la mesure où un utilisateur de moteur de recherche peut utiliser une requête ambiguë alors qu'il veut en réalité dire quelque chose de plus spécifique.

Le premier système d’IA déployé par Google est RankBrain, qui a été déployé pour mieux comprendre les concepts inhérents aux requêtes de recherche. Le mot concept est plus large que le mot sujet car les concepts sont des représentations abstraites. Un système qui comprend les concepts dans les requêtes de recherche peut alors aider le moteur de recherche à renvoyer des résultats pertinents sur le sujet correct.

Google a expliqué le travail de RankBrain comme ceci :

« RankBrain nous aide à trouver des informations que nous n'étions pas en mesure d'obtenir auparavant en comprenant plus largement comment les mots d'une recherche se rapportent à des concepts du monde réel. Par exemple, si vous recherchez « quel est le titre du consommateur au plus haut niveau d'une chaîne alimentaire », nos systèmes apprennent en voyant ces mots sur différentes pages que le concept de chaîne alimentaire peut avoir un rapport avec les animaux, et non avec les consommateurs humains. En comprenant et en faisant correspondre ces mots à leurs concepts associés, RankBrain comprend que vous recherchez ce que l'on appelle communément un « prédateur au sommet de la chaîne alimentaire ».

BERT est un modèle d'apprentissage profond qui aide Google à comprendre le contexte des mots dans les requêtes pour mieux comprendre le sujet global du texte.

Comprendre les sujets

Je ne pense pas que les moteurs de recherche modernes utilisent encore la modélisation thématique en raison de l'apprentissage profond et de l'IA. Cependant, une technique de modélisation statistique appelée Topic Modeling a été utilisée dans le passé par les moteurs de recherche pour comprendre le contenu d'une page Web et pour la faire correspondre aux requêtes de recherche. L'allocation de Dirichlet latente (LDA) était une technologie révolutionnaire du milieu des années 2000 qui a aidé les moteurs de recherche à comprendre les sujets.

Vers 2015, des chercheurs ont publié des articles sur le modèle de document variationnel neuronal (NVDM), qui était un moyen encore plus puissant de représenter les sujets sous-jacents des documents.

L’un des articles de recherche les plus récents s’intitule Beyond Yes and No: Improving Zero-Shot LLM Rankers via Scoring Fine-Grained Relevance Labels. Cet article de recherche porte sur l’amélioration de l’utilisation des modèles de langage volumineux pour classer les pages Web, un processus de notation de la pertinence. Il s’agit d’aller au-delà d’un classement binaire oui ou non vers une méthode plus précise en utilisant des étiquettes telles que « très pertinent », « quelque peu pertinent » et « non pertinent ».

Ce document de recherche stipule :

« Nous proposons d'intégrer des étiquettes de pertinence détaillées dans l'invite des classeurs LLM, leur permettant de mieux différencier les documents ayant différents niveaux de pertinence par rapport à la requête et ainsi d'obtenir un classement plus précis. »

Évitez la pensée réductionniste

Les moteurs de recherche vont au-delà de la recherche d'informations et s'orientent (depuis longtemps) vers la réponse aux questions, une situation qui s'est accélérée ces dernières années et ces derniers mois. C'est ce qu'avait prédit en 2001 un article intitulé Repenser la recherche : faire des dilettantes des experts du domaine, dans lequel ils évoquaient la nécessité de s'engager pleinement dans la fourniture de réponses de niveau humain.

L'article commence ainsi :

« Lorsqu’ils ont besoin d’informations, les utilisateurs souhaitent s’adresser à un expert du domaine, mais se tournent souvent vers un système de recherche d’informations, comme un moteur de recherche. Les systèmes classiques de recherche d’informations ne répondent pas directement aux besoins d’informations, mais fournissent plutôt des références à des réponses (qui, espérons-le, font autorité). Les systèmes de réponse aux questions efficaces offrent un corpus limité créé à la demande par des experts humains, qui n’est ni opportun ni évolutif. Les modèles de langage pré-entraînés, en revanche, sont capables de générer directement de la prose qui peut répondre à un besoin d’informations, mais à l’heure actuelle, ils sont des dilettantes plutôt que des experts du domaine – ils n’ont pas une véritable compréhension du monde… »

Le principal enseignement à tirer est qu'il est contre-productif d'appliquer une pensée réductionniste à la façon dont Google classe les pages Web en faisant quelque chose comme mettre l'accent de manière exagérée sur les mots-clés, les éléments de titre et les rubriques. Les technologies sous-jacentes évoluent rapidement vers la compréhension du monde, donc si l'on veut réfléchir aux systèmes d'actualité de base, il est utile de placer cela dans un contexte qui va au-delà des systèmes de recherche d'informations « classiques » traditionnels.

Les méthodes utilisées par Google pour comprendre les sujets sur les pages Web qui correspondent aux requêtes de recherche sont de plus en plus sophistiquées et c'est une bonne idée de se familiariser avec la manière dont Google l'a fait dans le passé et comment il peut le faire dans le présent.