La qualité plutôt que la quantité pour l'indexation Google

Deux tendances ont eu un impact sur la manière dont Google procède à l’indexation. Alors que le Web ouvert s’est rétréci, Google doit parcourir les grandes plateformes de contenu comme YouTube, Reddit et TikTok, qui sont souvent construites sur des frameworks JS « complexes », pour trouver de nouveaux contenus. Dans le même temps, l’IA modifie la dynamique sous-jacente du Web en rendant les contenus médiocres et de mauvaise qualité redondants.

Dans mon travail avec certains des plus grands sites du Web, j'ai récemment remarqué une relation inverse entre les pages indexées et le trafic organique. Un plus grand nombre de pages n'est pas automatiquement mauvais, mais ne répond souvent pas aux attentes de qualité de Google. Ou, en d'autres termes, la définition de la qualité a changé. Les enjeux pour les référenceurs sont élevés : si vous vous développez de manière trop agressive, tout votre domaine pourrait en souffrir. Nous devons changer notre façon de penser en matière de qualité et développer des systèmes de surveillance qui nous aident à comprendre la qualité du domaine au niveau de la page.

Rassasié

Google a modifié sa façon de traiter les domaines à partir d'octobre 2023 environ : aucun exemple n'a montré la relation inverse avant octobre. De plus, Google a rencontré des problèmes d'indexation lors du lancement de la mise à jour de l'algorithme de base d'octobre 2023, tout comme cela s'est produit maintenant lors de la mise à jour d'août 2024.

Avant ce changement, Google indexait tout et privilégiait le contenu de la meilleure qualité sur un domaine. Pensez-y comme à l'orpaillage, où vous remplissez une casserole de gravier, de terre et d'eau, puis vous remuez jusqu'à ce qu'il ne reste que du matériel de valeur.

Désormais, un domaine et son contenu doivent faire leurs preuves avant que Google ne tente de trouver de l'or. Si le domaine contient trop de contenu de mauvaise qualité, Google peut n'indexer que certaines pages, voire aucune dans les cas extrêmes.

Le site doordash.com en est un exemple : il a ajouté de nombreuses pages au cours des 12 derniers mois et a perdu du trafic organique dans le processus. Certaines, voire toutes, des nouvelles pages ne répondaient pas aux attentes de qualité de Google.

Mais pourquoi ? Qu'est-ce qui a changé ? Je me dis que :

  • Google souhaite économiser des ressources et des coûts à mesure que l'entreprise évolue vers un état d'esprit d'efficacité opérationnelle.
  • L'indexation partielle est plus efficace contre les contenus de mauvaise qualité et le spam. Au lieu d'indexer puis d'essayer de classer les nouvelles pages d'un domaine, Google observe la qualité globale d'un domaine et traite les nouvelles pages avec le scepticisme correspondant.
  • Si un domaine produit de manière répétée du contenu de mauvaise qualité, il n'a aucune chance de polluer davantage l'index de Google.
  • La barre de qualité de Google a été relevée car il y a beaucoup plus de contenu sur le Web, mais aussi pour optimiser son index pour RAG (grounding AI Overviews) et former des modèles.

Cette importance accordée à la qualité du domaine comme un signal signifie que vous devez modifier la façon dont vous surveillez votre site Web pour en tenir compte. Mon principe directeur : « Si vous ne pouvez rien ajouter de nouveau ou d'amélioré au Web, il n'est probablement pas assez bon. »

Nourriture de qualité

La qualité du domaine est mon terme pour décrire le ratio de pages indexées qui répondent aux normes de qualité de Google et celles qui ne le sont pas. Notez que seules les pages indexées comptent pour la qualité. Le pourcentage maximum de « mauvaises » pages avant que Google ne réduise le trafic vers un domaine n'est pas clair, mais nous pouvons certainement voir quand il est atteint :

Je définis la qualité du domaine comme un signal composé de 3 domaines : l'expérience utilisateur, la qualité du contenu et l'état technique :

  • Expérience utilisateur : les utilisateurs trouvent-ils ce qu'ils recherchent ?
  • Qualité du contenu : gain d'information, conception du contenu, exhaustivité
  • Techniquement optimisé : contenu dupliqué, rendu, contenu sur la page pour le contexte, «exploré, non indexé/découvert”404 doux

Une augmentation soudaine du nombre de pages indexées indique généralement un problème technique comme un contenu dupliqué à partir de paramètres, une internationalisation ou des paginations cassées. Dans l'exemple ci-dessous, Google a immédiatement réduit le trafic organique vers ce domaine lorsqu'une logique de pagination s'est rompue, ce qui a entraîné de nombreux contenus dupliqués. Je n'ai jamais vu Google réagir aussi rapidement aux bugs techniques, mais c'est le nouvel état du référencement dans lequel nous nous trouvons.

Dans d'autres cas, un pic dans les pages indexées indique une stratégie SEO programmatique où le domaine a lancé de nombreuses pages sur le même modèle. Lorsque la qualité du contenu des pages programmatiques n'est pas suffisante, Google ferme rapidement le robinet du trafic.

En réponse à cela, Google réduit souvent le nombre de mots-clés classés dans les trois premières positions. Le nombre de mots-clés classés dans les autres positions est souvent relativement stable.

La taille aggrave le problème : la qualité du domaine peut être un problème plus important pour les sites plus grands, même si les plus petits peuvent également être affectés.

L'ajout de nouvelles pages à votre domaine n'est pas une mauvaise chose en soi. Il faut juste y faire attention. Par exemple, publier un nouveau contenu de leadership intellectuel ou de marketing produit qui ne cible pas directement un mot-clé peut néanmoins être très utile pour les visiteurs du site. C'est pourquoi il est essentiel de mesurer l'engagement et la satisfaction des utilisateurs en plus des indicateurs SEO.

Régime alimentaire

Le moyen le plus efficace de maintenir les pages « grasses » (de mauvaise qualité) à l'écart et de réduire le risque d'être touché par une mise à jour de base est de mettre en place le bon système de surveillance. Il est difficile d'améliorer ce que l'on ne mesure pas.

Au cœur d'un système de surveillance de la qualité du domaine est un tableau de bord qui suit les statistiques de chaque page et les compare à la moyenne. Si je ne pouvais choisir que trois statistiques, je mesurerais le taux de rebond inverse, les conversions (soft et hard) et les clics + classements par type de page par page par rapport à la moyenne. Idéalement, votre système vous avertit lorsqu'un pic de taux d'exploration se produit, en particulier pour les nouvelles pages qui n'ont pas été explorées auparavant.

Comme je l’écris dans Comment les meilleures entreprises mesurent la qualité du contenu :

1/ Pour la qualité de production, mesurez des paramètres tels que le score de l'éditeur SEO, le score de lisibilité/de Flesch ou le nombre d'erreurs d'orthographe/grammaticales

2/ Pour la qualité des performances, mesurez des indicateurs tels que le nombre de classements parmi les 3 premiers, le ratio du temps passé sur la page par rapport au temps de lecture estimé, le taux de rebond inverse, la profondeur de défilement ou la valeur du pipeline

3/ Pour la qualité de conservation, mesurer les indicateurs de performance au fil du temps et d'une année sur l'autre

Ignorez les pages telles que les Conditions d'utilisation ou À propos de nous lorsque vous surveillez votre site, car leur fonction n'est pas liée au référencement.

Phase de gain

La surveillance est la première étape pour comprendre la qualité du domaine de votre site. Il n'est pas toujours nécessaire d'ajouter des pages supplémentaires pour développer votre activité. Souvent, vous pouvez améliorer votre inventaire de pages existant, mais vous avez besoin d'un système de surveillance pour le déterminer en premier lieu.

Adidas est un bon exemple d'un domaine qui a pu augmenter son trafic organique simplement en optimisant ses pages existantes.

Un autre exemple est Redfin, qui a maintenu un nombre constant de pages tout en augmentant considérablement le trafic organique.

Citation du directeur principal de la croissance des produits dans mon article Redfin Deep Dive sur le respect de la bonne barre de qualité :

Nous apportons notre expertise locale au site Web – en étant l'autorité sur le marché du logement, en répondant à ce que c'est que de vivre dans une région, en offrant un ensemble complet d'inventaire à vendre et à louer à travers les États-Unis.

Maintenir l'excellence technique : notre site est volumineux (plus de 100 millions de pages), nous ne pouvons donc pas négliger des aspects tels que les performances, la santé de l'exploration et la qualité des données. Parfois, les efforts les moins « sexy » peuvent être les plus efficaces.

Des entreprises comme Lending Tree ou Progressive ont constaté des gains significatifs en réduisant les pages qui ne répondaient pas à leurs normes de qualité (voir les captures d'écran des analyses approfondies ci-dessous).

Conclusion

Google récompense les sites qui restent en bonne santé. En 2020, j'ai écrit sur le fait que l'index de Google pourrait être plus petit que nous le pensons. La taille de l'index était un objectif au début. Mais aujourd'hui, il s'agit moins d'indexer autant de pages indexées que possible et davantage d'avoir les bonnes pages. La définition de « bon » a évolué. Google est plus sélectif quant à ceux qu'il laisse entrer dans le club.

Dans le même article, j'ai émis l'hypothèse selon laquelle Google passerait à une API d'indexation et laisserait les propriétaires de sites prendre en charge l'indexation. Cela ne s'est pas concrétisé, mais on peut dire que Google utilise davantage d'API pour l'indexation :

  • L'accord de 60 $ par an entre Google et Reddit fournit un dixième des résultats de recherche de Google (en supposant que Reddit soit présent dans le top 10 pour presque tous les mots clés).
  • Dans le commerce électronique, où davantage de listes organiques apparaissent plus haut dans les résultats de recherche, Google s'appuie davantage sur le flux de produits du Merchant Center pour indexer les nouveaux produits et peaufiner son Shopping Graph.
  • Les fonctionnalités SERP telles que Top Stories, qui sont essentielles dans le secteur de l'information, sont de petits services dotés de leur propre logique d'indexation.

À l’avenir, la grande question concernant l’indexation sera de savoir comment elle évoluera lorsque davantage d’utilisateurs effectueront des recherches via des aperçus d’IA et des chatbots d’IA. En supposant que les LLM devront toujours être capables de restituer des pages, le travail technique de référencement reste essentiel. Cependant, la motivation de l’indexation passe de la mise en évidence des résultats Web à la formation de modèles. En conséquence, la valeur des pages qui n’ont rien de nouveau à offrir sera encore plus proche de zéro qu’aujourd’hui.