Google répertorie 9 scénarios qui expliquent comment il sélectionne les URL canoniques

John Mueller de Google a répondu à une question sur Reddit expliquant pourquoi Google choisit une page Web plutôt qu’une autre lorsque plusieurs pages ont du contenu en double, expliquant également pourquoi Google semble parfois choisir la mauvaise URL comme canonique.

URL canoniques

Le mot canonique était auparavant principalement utilisé dans le sens religieux pour décrire les écrits ou les croyances reconnus comme faisant autorité. Dans la communauté SEO, le mot est utilisé pour désigner quelle URL est la véritable page Web lorsque plusieurs pages Web partagent un contenu identique ou similaire.

Google permet aux propriétaires de sites et aux référenceurs de fournir une indication sur l’URL canonique à l’aide d’un attribut HTML appelé rel=canonical. Les référenceurs font souvent référence à rel=canonical comme élément HTML, mais ce n’est pas le cas. Rel=canonical est un attribut du élément. Un élément HTML est un élément constitutif d’une page Web. Un attribut est un balisage qui modifie l’élément.

Pourquoi Google choisit une URL plutôt qu’une autre

Une personne sur Reddit a demandé à Mueller de fournir une analyse plus approfondie des raisons pour lesquelles Google choisit une URL plutôt qu’une autre.

Ils ont demandé :

« Hé John, puis-je vous demander d’approfondir un peu ce sujet ? Disons que je veux comprendre pourquoi Google pense que deux pages sont en double et qu’il choisit l’une plutôt que l’autre et la raison n’est pas vraiment visible. Que peut-on faire pour mieux comprendre pourquoi une page est choisie plutôt qu’une autre si elles couvrent des sujets différents ? Comme IDK, le panda roux et le panda « normal » 🐼. TY !! »

Mueller a répondu avec environ neuf raisons différentes pour lesquelles Google choisit une page plutôt qu’une autre, y compris les raisons techniques pour lesquelles Google semble se tromper, mais en réalité, cela est parfois dû à quelque chose que le propriétaire du site en matière de référencement a négligé.

Voici les neuf raisons qu’il a citées pour justifier les choix canoniques :

Contenu en double exact
Les pages sont entièrement identiques, ne laissant aucun signal significatif permettant de distinguer une URL d’une autre.
Duplication substantielle dans le contenu principal
Une grande partie du contenu principal se chevauche sur plusieurs pages, comme le même article apparaissant à plusieurs endroits.
Trop peu de contenu principal unique par rapport au contenu du modèle
Le contenu unique de la page est minime, de sorte que les éléments répétés tels que la navigation, les menus ou la mise en page dominent et donnent aux pages une apparence effectivement identique.
Modèles de paramètres d’URL déduits comme des doublons
Lorsque plusieurs URL paramétrées renvoient le même contenu, Google peut généraliser ce modèle et traiter les variations de paramètres similaires comme des doublons.
Version mobile utilisée à des fins de comparaison
Google peut évaluer la version mobile au lieu de la version de bureau, ce qui peut conduire à des évaluations de duplication différentes de celles vérifiées manuellement.
Version visible par Googlebot utilisée pour l’évaluation
Les décisions canoniques sont basées sur ce que Googlebot reçoit réellement, pas nécessairement sur ce que voient les utilisateurs.
Servir des pages alternatives ou sans contenu de Googlebot
Si Googlebot voit des défis de robot, des pages de pseudo-erreur ou d’autres réponses génériques, celles-ci peuvent correspondre au contenu vu précédemment et être traitées comme des doublons.
Échec du rendu du contenu JavaScript
Lorsque Google ne peut pas afficher la page, il peut s’appuyer sur le shell HTML de base, qui peut être identique d’une page à l’autre et déclencher la duplication.
Ambiguïté ou mauvaise classification dans le système
Dans certains cas, une URL peut être traitée comme un doublon simplement parce qu’elle semble « mal placée » ou en raison de limitations dans la façon dont le système interprète la similarité.

Voici la réponse complète de Mueller :

« Il n’existe aucun outil qui vous indique pourquoi quelque chose a été considéré comme un doublon. Au fil des années, les gens en ont souvent une idée, mais ce n’est pas toujours évident. La vidéo de Matt « Comment Google gère-t-il le contenu dupliqué ? » est un bon début, même maintenant.

Certaines des raisons pour lesquelles les choses sont considérées comme des doublons sont (elles ont toutes été mentionnées à divers endroits – du contenu en double sur le contenu en double si vous voulez :-)) : la duplication exacte (tout est en double), la correspondance partielle (une grande partie est en double, par exemple, lorsque vous avez le même article sur deux blogs ; parfois il n’y a tout simplement pas beaucoup de contenu à continuer, par exemple si vous avez un menu géant et un petit article de blog), ou – c’est plus difficile – lorsque l’URL semble être dupliquée en fonction des doublons trouvés ailleurs. sur le site (par exemple, si / page?

Deux raisons pour lesquelles j’ai vu des gens se laisser décourager sont : nous utilisons la version mobile (les gens vérifient généralement sur le bureau) et nous utilisons la version vue par Googlebot (et si vous montrez à Googlebot un défi de robot ou une autre pseudo-page d’erreur, il y a de fortes chances que nous l’ayons déjà vu et que nous puissions le considérer comme un doublon). De plus, nous utilisons la version rendue – mais cela signifie que nous devons être en mesure de restituer votre page si elle utilise un framework JS pour le contenu (si nous ne pouvons pas la restituer, nous pourrions prendre la page HTML bootstrap et il y a de fortes chances qu’elle soit en double).

Il arrive que ces systèmes ne soient pas parfaits pour sélectionner le contenu en double, parfois aussi simplement que l’URL alternative semble manifestement mal placée. Parfois, cela s’installe avec le temps (à mesure que nos systèmes reconnaissent que les choses sont vraiment différentes), parfois non.

S’il s’agit d’un contenu similaire, les utilisateurs peuvent toujours y accéder, donc ce n’est généralement pas si terrible. Il est assez rare que nous finissions par signaler une mauvaise copie : au fil des années, les équipes ont fait un travail fantastique avec ces systèmes ; la plupart des pages étranges ne posent aucun problème, il s’agit souvent simplement d’une page d’erreur étrange et difficile à repérer.

Emporter

Mueller a proposé une analyse approfondie des raisons pour lesquelles Google choisit les canoniques. Il a décrit le processus de choix des canoniques comme un système de tri flou construit à partir de signaux qui se chevauchent, Google comparant le contenu, les modèles d’URL, le rendu et les versions visibles par les robots, tandis que les classifications limites (« les plus étranges ») reçoivent un laissez-passer parce qu’elles ne posent pas de problème.