Clarification des fuites de données Google

Pendant les vacances aux États-Unis, certains articles ont été partagés concernant une prétendue fuite de données liées au classement Google. Les premiers articles sur les fuites se sont concentrés sur la « confirmation » des croyances de longue date de Rand Fishkin, mais peu d’attention a été portée sur le contexte de l’information et ce qu’elle signifie réellement.

Le contexte est important : Document AI Warehouse

Le document divulgué partage une relation avec une plate-forme publique Google Cloud appelée Document AI Warehouse, utilisée pour analyser, organiser, rechercher et stocker des données. Cette documentation publique est intitulée Présentation de Document AI Warehouse. Une publication sur Facebook indique que les données « divulguées » sont la « version interne » de la documentation Document AI Warehouse visible publiquement. C'est le contexte de ces données.

Capture d'écran : Entrepôt de documents AI

@DavidGQuaid a tweeté :

« Je pense qu'il s'agit clairement d'une API externe pour créer un entrepôt de documents, comme son nom l'indique »

Cela semble jeter de l’eau froide sur l’idée selon laquelle les données « divulguées » représentent des informations internes de recherche Google.

Pour autant que nous le sachions à l'heure actuelle, les « données divulguées » partagent une similitude avec ce qui se trouve dans la page publique Document AI Warehouse.

Fuite de données de recherche internes ?

Le message original sur SparkToro ne dit pas que les données proviennent de la recherche Google. Il indique que la personne qui a envoyé les données à Rand Fishkin est celle qui a fait cette affirmation.

L’une des choses que j’admire chez Rand Fishkin, c’est qu’il est méticuleusement précis dans ses écrits, notamment en ce qui concerne les mises en garde. Rand note précisément que c'est la personne qui a fourni les données qui prétend que les données proviennent de la recherche Google. Il n'y a aucune preuve, seulement une affirmation.

Il écrit:

« J'ai reçu un e-mail d'une personne prétendant avoir accès à une fuite massive de documentation API provenant de la division Recherche de Google. »

Fishkin lui-même n'affirme pas que les données ont été confirmées par d'anciens Googleurs comme provenant de la recherche Google. Il écrit que la personne qui a envoyé les données par courrier électronique a fait cette affirmation.

« L'e-mail affirmait en outre que ces documents divulgués avaient été confirmés comme authentiques par d'anciens employés de Google, et que ces ex-employés et d'autres avaient partagé des informations privées supplémentaires sur les opérations de recherche de Google. »

Fishkin écrit à propos d'une réunion vidéo ultérieure au cours de laquelle le fuyard a révélé que son contact avec d'anciens Googleurs avait lieu dans le contexte de leur rencontre lors d'un événement de l'industrie de la recherche. Encore une fois, nous devrons croire les fuiteurs sur parole à propos des ex-Googleurs et que ce qu'ils ont dit était après avoir soigneusement examiné les données et non un commentaire informel.

Fishkin écrit qu'il a contacté trois anciens Googleurs à ce sujet. Ce qui est remarquable, c'est que ces anciens Googleurs n'ont pas explicitement confirmé que les données étaient internes à la recherche Google. Ils ont seulement confirmé que les données ressemblent à des informations internes à Google, et non qu'elles proviennent de la recherche Google.

Fishkin écrit ce que les anciens Googleurs lui ont dit :

« Je n'avais pas accès à ce code lorsque j'y travaillais. Mais cela semble certainement légitime.
« Il présente toutes les caractéristiques d'une API Google interne. »
« C'est une API basée sur Java. Et quelqu'un a passé beaucoup de temps à respecter les normes internes de Google en matière de documentation et de dénomination.
« J'aurais besoin de plus de temps pour en être sûr, mais cela correspond à la documentation interne que je connais. »
« Rien de ce que j'ai vu dans une brève revue ne suggère que cela soit tout sauf légitime. »

Dire que quelque chose provient de la recherche Google et dire qu'il provient de Google sont deux choses différentes.

Garde l'esprit ouvert

Il est important de garder l’esprit ouvert sur les données, car de nombreuses données ne sont pas confirmées. Par exemple, on ne sait pas s’il s’agit d’un document interne de l’équipe de recherche. Pour cette raison, ce n’est probablement pas une bonne idée de considérer ces données comme des conseils de référencement exploitables.

De plus, il n’est pas conseillé d’analyser les données pour confirmer spécifiquement des croyances de longue date. C’est ainsi que l’on se retrouve pris au piège du biais de confirmation.

Une définition du biais de confirmation :

« Le biais de confirmation est la tendance à rechercher, interpréter, favoriser et rappeler des informations d'une manière qui confirme ou soutient ses croyances ou valeurs antérieures. »

Le biais de confirmation amènera une personne à nier des choses qui sont empiriquement vraies. Par exemple, il existe l’idée vieille de plusieurs décennies selon laquelle Google empêche automatiquement le classement d’un nouveau site, une théorie appelée Sandbox. Chaque jour, des personnes signalent que leurs nouveaux sites et leurs nouvelles pages se classent presque immédiatement dans le top dix des résultats de recherche Google.

Mais si vous êtes un fervent partisan du bac à sable, alors une expérience observable réelle comme celle-là sera écartée, quel que soit le nombre de personnes observant l'expérience opposée.

Brenda Malone, stratège technique SEO senior indépendante et développeur Web (profil LinkedIn), m'a envoyé un message concernant les affirmations concernant le bac à sable :

« Je sais personnellement, par expérience, que la théorie du bac à sable est fausse. Je viens d'indexer en deux jours un blog personnel avec deux articles. Il n’est pas possible qu’un petit site à deux articles ait été indexé selon la théorie du bac à sable.

Ce qu’il faut retenir ici, c’est que si la documentation s’avère provenir de la recherche Google, la mauvaise façon d’analyser les données est de rechercher la confirmation de croyances de longue date.

Qu’est-ce que la fuite de données Google ?

Il y a cinq éléments à considérer concernant les données divulguées :

Le contexte de la fuite des informations est inconnu. Est-ce lié à la recherche Google ? Est-ce à d'autres fins ?
La finalité des données. Les informations ont-elles été utilisées pour des résultats de recherche réels ? Ou a-t-il été utilisé pour la gestion ou la manipulation de données en interne ?
Les anciens Googleurs n'ont pas confirmé que les données sont spécifiques à la recherche Google. Ils ont seulement confirmé que cela semble provenir de Google.
Garde l'esprit ouvert. Si vous partez à la recherche de justifications pour des croyances de longue date, devinez quoi ? Vous les trouverez, partout. C’est ce qu’on appelle le biais de confirmation.
Les preuves suggèrent que les données sont liées à une API externe pour créer un entrepôt de documents.

Ce que disent les autres à propos des documents « divulgués »

Ryan Jones, quelqu'un qui possède non seulement une expérience approfondie du référencement, mais aussi une formidable compréhension de l'informatique, a partagé quelques observations raisonnables sur la soi-disant fuite de données.

Ryan a tweeté :

« Nous ne savons pas si c'est pour la production ou pour les tests. Je suppose que c'est principalement pour tester des changements potentiels.

Nous ne savons pas ce qui est utilisé pour le Web ou pour d'autres secteurs verticaux. Certaines choses peuvent uniquement être utilisées pour un accueil Google ou des actualités, etc.

Nous ne savons pas ce qu'est une entrée dans un algorithme ML et contre quoi on s'entraîne. Je suppose que les clics ne sont pas une entrée directe mais sont utilisés pour entraîner un modèle à prédire la cliquabilité. (En dehors des boosts de tendances)

Je suppose également que certains de ces champs s'appliquent uniquement aux ensembles de données de formation et non à tous les sites.

Suis-je en train de dire que Google n'a pas menti ? Pas du tout. Mais examinons cette fuite de manière répréhensible et sans préjugés.»

@DavidGQuaid a tweeté :

« Nous ne savons pas non plus s'il s'agit d'une recherche Google ou d'une récupération de documents Google Cloud.

Les API semblent choisir – ce n'est pas ainsi que je m'attends à ce que l'algorithme soit exécuté – que se passe-t-il si un ingénieur souhaite ignorer tous ces contrôles de qualité – on dirait que je souhaite créer une application d'entrepôt de contenu pour la base de connaissances de mon entreprise.

Les données « divulguées » sont-elles liées à la recherche Google ?

À l’heure actuelle, il n’existe aucune preuve tangible que ces données « divulguées » proviennent réellement de la recherche Google. Il existe une très grande ambiguïté quant à la finalité des données. Il convient de noter que certains indices suggèrent que ces données ne sont qu'« une API externe permettant de créer un entrepôt de documents, comme leur nom l'indique », et n'ont aucun rapport avec la façon dont les sites Web sont classés dans la recherche Google.

La conclusion selon laquelle ces données ne proviennent pas de la recherche Google n'est pas définitive pour le moment, mais c'est la direction dans laquelle le vent des preuves semble souffler.