Bots IA : qui bloque et pourquoi ?

J’ai évoqué certains des arguments potentiels dans un sens ou dans l’autre dans mon article précédent, mais la vérité est qu’à l’heure actuelle, compte tenu du peu de trafic généré par ces modèles, cela n’a probablement pas d’impact énorme à court terme. Si vous regardez le fichier robots.txt de Moz au moment de la rédaction, vous pouvez voir que nous bloquons GPTBot de notre centre d’apprentissage et de notre blog – il s’agit d’une position de compromis, mais dont nous n’avons pas vraiment vu d’avantages ou d’inconvénients jusqu’à présent, et nous ne nous attendons pas à en voir à court terme. Je ne pense certainement pas que la comparaison avec le blocage de Googlebot soit juste – les LLM sont principalement un outil de génération de contenu, et non principalement un outil de référencement de trafic. En effet, Google a suggéré que même leurs aperçus d’IA ne sont pas affectés par Google-Extended, mais plutôt par Googlebot ordinaire. De même, au moment de la rédaction de cet article, OpenAI vient d’annoncer son concurrent direct de Google « SearchGPT », et a également confirmé que, comme Google, il utilise un agent utilisateur distinct pour d’autres outils d’IA génératifs – dans ce cas, « OAI-SearchBot ».

Ce que je n'ai pas abordé dans cet article, c'est le cas des grands éditeurs. Si vous êtes un grand éditeur et que vous pensez avoir de l'influence et être en mesure de conclure un accord, vous souhaiterez peut-être créer un précédent : ces outils ne sont pas en accès libre. sauf si Ils parviennent à un accord formel. Par exemple, la société mère de The Verge, Vox Media, a déclaré publiquement qu'elle bloquait l'accès avant de finalement conclure un accord. Le fichier robots.txt sur theverge.com bloque toujours explicitement la plupart des autres robots IA, mais pas (plus) GPTbot.

Bien entendu, la majorité des sites et la majorité des lecteurs de cet article de blog ne sont pas de grands éditeurs. Il est peut-être bien plus intéressant pour vous d'être mentionné dans un contenu rédigé par l'IA que d'essayer de protéger la valeur unique de votre contenu, en particulier sur un marché encombré de concurrents qui n'ont aucun scrupule à le faire. Néanmoins, il est intéressant de voir les précédents créés ici, et il sera encore plus intéressant de voir comment cela se déroule.