Les résultats de recherche de Google ont été touchés ces derniers jours par une attaque de spam que l’on peut qualifier de complètement incontrôlable. De nombreux domaines sont classés chacun pour des centaines de milliers de mots-clés, ce qui indique que l’ampleur de cette attaque pourrait facilement atteindre des millions d’expressions-clés.
Étonnamment, de nombreux domaines n’ont été enregistrés qu’au cours des dernières 24 à 48 heures.
Cela a récemment attiré mon attention grâce à une série de messages de Bill Hartzer (profil LinkedIn) dans lesquels il a publié un graphique de liens généré par l’outil de backlinks Majestic qui exposait les réseaux de liens de plusieurs sites de spam.
Le graphique de liens qu’il a publié montrait des dizaines de sites Web étroitement liés les uns aux autres, ce qui est un modèle assez typique des réseaux de liens spammés.
Capture d’écran d’un réseau étroitement lié
Bill et moi avons parlé des sites de spam sur Facebook Messenger et nous avons tous deux convenu que même si les spammeurs ont déployé beaucoup d’efforts pour créer un réseau de backlinks, les liens n’étaient pas réellement responsables du classement élevé.
Bill a dit :
« Cela, à mon avis, est en partie la faute de Google, qui semble mettre davantage l’accent sur le contenu plutôt que sur les liens. »
Je suis d’accord à 100 % sur le fait que Google met davantage l’accent sur le contenu que sur les liens. Mais je pense que les liens de spam sont là pour que Googlebot puisse découvrir les pages de spam et les indexer, ne serait-ce que pour un ou deux jours.
Une fois indexées, les pages de spam exploitent probablement ce que je considère comme deux failles dans les algorithmes de Google, dont je parle ensuite.
Spam hors de contrôle dans les SERP de Google
Plusieurs sites classent les expressions à longue traîne qui sont assez faciles à classer, ainsi que les expressions avec un composant de recherche locale, qui sont également faciles à classer.
Les expressions à longue traîne sont des expressions de mots clés qui sont utilisées par les gens, mais extrêmement rarement. Longtail est un concept qui existe depuis près de vingt ans et qui a ensuite été popularisé par un livre de 2006 intitulé The Long Tail : Why the Future of Business is Selling Less of More.
Les spammeurs sont capables de classer ces expressions rarement recherchées car il y a peu de concurrence pour ces expressions, ce qui facilite le classement.
Ainsi, si un spammeur crée des millions de pages d’expressions à longue traîne, ces pages peuvent alors être classées pour des centaines de milliers de mots-clés chaque jour sur une courte période de temps.
Des entreprises comme Amazon utilisent le principe du longtail pour vendre des centaines de milliers de produits individuels par jour, ce qui est différent de la vente d’un produit cent mille fois par jour.
C’est ce que les spammeurs exploitent : la facilité de classement des expressions à longue traîne.
La deuxième chose que les spammeurs exploitent est la faille inhérente à la recherche locale.
L’algorithme de recherche locale n’est pas le même que l’algorithme de classement des mots-clés non locaux.
Les exemples qui ont été mis en lumière sont des variantes de Craigslist et des mots-clés associés.
Les exemples sont des expressions comme Pièces automobiles Craigslist, Chambres Craigslist à louer, Craigslist à vendre par le propriétaire et des milliers d’autres mots-clés, dont la plupart n’utilisent pas le mot Craigslist.
L’ampleur du spam est énorme et va bien au-delà des mots-clés contenant le mot « Craigslist ».
À quoi ressemble la page de spam
Il est impossible de voir à quoi ressemble la page de spam en visitant les pages avec un navigateur.
J’ai essayé de voir le code source des sites classés dans Google, mais tous les sites de spam redirigent automatiquement vers un autre domaine.
J’ai ensuite saisi l’URL du spam dans le vérificateur de liens du W3C pour visiter le site Web, mais le robot du W3C n’a pas non plus pu voir le site.
J’ai donc modifié l’agent utilisateur de mon navigateur pour qu’il s’identifie comme étant Googlebot, mais le site de spam m’a quand même redirigé.
Cela indiquait que le site ne vérifiait pas si l’agent utilisateur était Googlebot.
Le site de spam vérifiait les adresses IP de Googlebot. Si l’adresse IP du visiteur correspondait à celle de Google, la page de spam affichait le contenu à Googlebot.
Tous les autres visiteurs ont été redirigés vers d’autres domaines affichant un contenu fragmentaire.
Afin de voir le code HTML du site Web, j’ai dû le visiter avec une adresse IP Google. J’ai donc utilisé le testeur Rich Results de Google pour visiter le site de spam et enregistrer le code HTML de la page.
J’ai montré à Bill Hartzer comment extraire le code HTML à l’aide du testeur Rich Results et il est immédiatement parti tweeter à ce sujet, mdr. Merde !
Le Rich Results Tester a une option pour afficher le HTML d’une page Web. J’ai donc copié le code HTML, l’ai collé dans un fichier texte, puis l’ai enregistré en tant que fichier HTML.
Capture d’écran du code HTML fourni par l’outil de résultats enrichis
J’ai ensuite modifié le fichier HTML pour supprimer tout code JavaScript, puis j’ai enregistré à nouveau le fichier.
J’ai maintenant pu voir à quoi ressemble la page Web pour Google :
Capture d’écran de la page Web de spam
Un domaine est classé pour plus de 300 000 mots-clés
Bill m’a envoyé une feuille de calcul contenant une liste d’expressions-clés pour lesquelles un seul des sites de spam s’est classé. Un site de spam, un seul parmi eux, classé pour plus de 300 000 expressions de mots clés.
Capture d’écran montrant les mots-clés pour un domaine
Il y avait beaucoup d’expressions de mots clés Craigslist, mais il y avait aussi d’autres expressions à longue traîne, dont beaucoup contenaient un élément de recherche locale. Comme je l’ai mentionné, il est facile de classer les expressions à longue traîne, de classer les expressions de recherche locale et de combiner les deux types d’expressions, et il est très facile de classer ces expressions de mots clés.
Pourquoi cette technique de spam fonctionne-t-elle ?
La recherche locale utilise un algorithme différent de l’algorithme non local. Par exemple, un site local, en général, n’a pas besoin de beaucoup de liens pour être classé pour une requête. Les pages ont juste besoin des bons types de mots-clés pour déclencher un algorithme de recherche locale et le classer pour une zone géographique.
Donc, si vous recherchez « pièces automobiles Craigslist », cela déclenchera l’algorithme de recherche locale et, comme il est long, il ne faudra pas trop de temps pour le classer.
Il s’agit d’un problème persistant depuis de nombreuses années. Il y a plusieurs années, un site Web a pu être classé pour « Rhinoplastie Plano, Texas » avec un site contenant du contenu en vieux latin romain et des titres en anglais. La rhinoplastie est une recherche locale à longue traîne et Plano, au Texas, est une ville relativement petite. Le classement pour cette expression-clé de rhinoplastie était si simple que le site Web en langue latine a pu facilement se classer pour elle.
Google est au courant de ce problème de spam depuis au moins le 19 décembre, comme l’a reconnu Danny Sullivan dans un tweet.
Oui, je l’ai déjà transmis à l’équipe de recherche. Voici un aperçu. Et c’est en train d’être examiné. pic.twitter.com/vJH3EisnXD
– Google SearchLiaison (@searchliaison) 19 décembre 2023
Il sera intéressant de voir si Google trouve enfin, après tout ce temps, un moyen de lutter contre ce type de spam.