Gary Illyes de Google a discuté du concept de «contenu de la pièce maîtresse», comment ils l'identifient et pourquoi les 404 soft sont l'erreur la plus critique qui gêne l'indexation du contenu. Le contexte de la discussion a été le récent événement de plongée sur Google Search Central Deep en Asie, tel que résumé par Kenichi Suzuki.
Contenu du corps principal
Selon Gary Illyes, Google fait beaucoup de mal pour identifier le contenu principal d'une page Web. L'expression «contenu principal» sera familière à ceux qui ont lu les directives des évaluations de la qualité de recherche de Google. Le concept de «contenu principal» est d'abord introduit dans la partie 1 des directives, dans une section qui enseigne comment identifier le contenu principal, suivi d'une description de la qualité du contenu principal.
Les directives de qualité définissent le contenu principal (AKA MC) comme:
«Le contenu principal fait partie de la page qui aide directement la page à atteindre son objectif. MC peut être du texte, des images, des vidéos, des fonctionnalités de la page (par exemple, des calculatrices, des jeux), et il peut être contenu créé par les utilisateurs de sites Web, tels que des vidéos, des critiques, des articles, des commentaires publiés par les utilisateurs, etc.
Le MC comprend également le titre en haut de la page (exemple). Les titres descriptifs MC permettent aux utilisateurs de prendre des décisions éclairées sur les pages à visiter. Les titres utiles résument le MC sur la page. »
Les Illyes de Google ont appelé le contenu principal comme le contenu de la pièce maîtresse, affirmant qu'il est utilisé pour «le classement et la récupération». Le contenu de cette section d'une page Web a un poids plus important que le contenu des zones de pied de page, d'en-tête et de navigation (y compris la navigation par barre latérale).
Suzuki a résumé ce qu'Allyes a dit:
«Les systèmes de Google priorisent fortement le« contenu principal »(qu'il appelle également la« pièce maîtresse ») d'une page pour le classement et la récupération. Les mots et les phrases situés dans ce domaine ont beaucoup plus de poids que ceux des en-têtes, des pieds de page ou des barres latérales de navigation.
Analyse de localisation du contenu pour identifier le contenu principal
Cette partie de la présentation d'Illyes est importante pour bien faire. Gary Illyes a déclaré que Google analyse la page Web rendue pour localiser le contenu afin qu'il puisse attribuer la quantité appropriée de poids aux mots situés dans le contenu principal.
Il ne s'agit pas d'identifier la position des mots clés dans la page. Il s'agit simplement d'identifier le contenu dans une page Web.
Voici ce que Suzuki a transcrit:
« Google effectue une analyse de position sur la page rendue pour comprendre où se trouve le contenu. Il utilise ensuite ces données pour attribuer un score d'importance aux mots (jetons) sur la page. Le déplacement d'un terme à partir d'une zone à faible importance (comme une barre latérale) à la zone de contenu principale augmentera directement son poids et son potentiel de classement. »
Aperçu: Le HTML sémantique est un excellent moyen d'aider Google à identifier le contenu principal et les domaines moins importants. Le HTML sémantique rend les pages Web moins ambiguës car elle utilise des éléments HTML pour identifier les différents domaines d'une page Web, comme la section d'en-tête supérieure, les zones de navigation, les pieds de page et même pour identifier les éléments de publicité et de navigation qui peuvent être intégrés dans la zone principale de contenu. Ce processus technique SEO de rendre une page Web moins ambigu est appelée désambiguïsation.
En rapport:
3. La tokenisation est le fondement de l'indice de Google
En raison de la prévalence des technologies de l'IA aujourd'hui, de nombreux SEO sont conscients du concept de tokenisation. Google utilise également la tokenisation pour convertir les mots et les phrases en un format lisible par machine pour l'indexation. Ce qui est stocké dans l'index de Google n'est pas le HTML d'origine; C'est la représentation tokenisée du contenu.
Voir aussi: Introduction aux LLM pour le référencement avec des exemples
4. «Soft 404S est une erreur critique
Cette partie est importante car elle encadre les 404 Soft comme une erreur critique. Soft 404s sont des pages qui devraient renvoyer une réponse 404 mais renvoie à la place une réponse de 200 OK. Cela peut se produire lorsqu'un référencement ou un éditeur redirige une page Web manquante vers la page d'accueil afin de conserver leur pagerank. Parfois, une page Web manquante redirige vers une page d'erreur qui renvoie une réponse de 200 OK, qui est également incorrecte.
De nombreux SEO croient à tort que le code de réponse 404 est une erreur qui doit être fixée. Un 404 est quelque chose qui doit être réparé uniquement si l'URL est cassée et est censé pointer vers une URL différente qui est en direct avec du contenu réel.
Mais dans le cas d'une URL pour une page Web qui a disparu et qui ne revient probablement jamais car elle n'a pas été remplacée par d'autres contenus, une réponse 404 est la bonne. Si le contenu a été remplacé ou remplacé par une autre page Web, il est approprié dans ce cas de rediriger l'ancienne URL vers l'URL où le contenu de remplacement existe.
Le point de tout cela est que, pour Google, un Soft 404 est une erreur critique. Cela signifie que les référentiels qui essaient de réparer un événement non error comme une réponse 404 en redirigeant l'URL vers la page d'accueil créent en fait une erreur critique en le faisant.
Suzuki a noté ce qu'Allyes a dit:
« Une page qui renvoie un code d'état de 200 OK mais affiche un message d'erreur ou a un contenu principal très mince / vide est considéré comme un » Soft 404. » Google identifie activement et désactiorise ces pages au fur et à mesure qu'ils gaspillent le budget de la rampe et offrent une mauvaise expérience utilisateur.
En rapport: Google met en garde contre les erreurs Soft 404 et leur impact sur le référencement
Plats à emporter
- Contenu principal
Google donne la priorité à la partie principale de contenu d'une page Web donnée. Bien que Gary Illyes ne l'ait pas mentionné, il peut être utile d'utiliser HTML sémantique pour décrire clairement les parties de la page le principal contenu et quelles parties ne sont pas. - Google Tokenise le contenu d'indexation
L'utilisation de la tokenisation par Google permet une compréhension sémantique des requêtes et du contenu. L'importance pour le référencement est que Google ne s'appuie plus fortement sur les mots clés de correspondance exacte, ce qui libère les éditeurs et les SEO pour se concentrer sur l'écriture sur les sujets (pas les mots clés) du point de vue de la façon dont ils sont utiles aux utilisateurs. - Soft 404S est une erreur critique
Les 404 doux sont généralement considérés comme quelque chose à éviter, mais ils ne sont généralement pas compris comme une erreur critique qui peut avoir un impact négatif sur le budget de la rampe. Cela élève l'importance d'éviter les 404 doux.
Voir aussi: Comment la recherche AI Bing utilise le contenu du site Web