Hostinger a analysé 66 milliards de requêtes de robots sur plus de 5 millions de sites Web et a constaté que les robots d’exploration IA suivent deux chemins différents.
Les robots de formation LLM perdent l’accès au Web à mesure que de plus en plus de sites les bloquent. Pendant ce temps, les robots assistants IA qui alimentent les outils de recherche comme ChatGPT étendent leur portée.
L’analyse s’appuie sur des journaux de serveur anonymisés provenant de trois fenêtres de 6 jours, avec une classification des robots mappée aux classifications du projet AI.txt.
Les robots d’entraînement sont bloqués
La découverte la plus frappante concerne le GPTBot d’OpenAI, qui collecte des données pour la formation des modèles. La couverture de son site Web est passée de 84 % à 12 % au cours de la période d’étude.
ExternalAgent de Meta était le plus grand robot d’exploration de catégorie de formation en termes de volume de requêtes dans les données d’Hostinger. Hostinger affirme que ce groupe de robots de formation présente globalement les baisses les plus fortes, en partie dues au blocage des sites par les robots d’exploration de l’IA.
Ces chiffres correspondent aux modèles que j’ai suivis au cours de plusieurs études. BuzzStream a constaté que 79 % des principaux éditeurs de presse bloquent désormais au moins un robot de formation. Le bilan de l’année de Cloudflare a montré que GPTBot, ClaudeBot et CCBot avaient le plus grand nombre de directives d’interdiction totale dans les principaux domaines.
Les données quantifient ce que ces études suggèrent. Hostinger interprète la baisse de la couverture des robots de formation comme le signe que davantage de sites bloquent ces robots d’exploration, même lorsque les volumes de requêtes restent élevés.
Les robots assistants racontent une histoire différente
Alors que les robots d’entraînement se heurtent à des résistances, les robots qui alimentent les outils de recherche d’IA étendent l’accès.
OAI-SearchBot d’OpenAI, qui récupère le contenu pour la fonction de recherche de ChatGPT, a atteint une couverture moyenne de 55,67 %. Le bot de TikTok a atteint une couverture de 25,67 % avec 1,4 milliard de requêtes. Le bot d’Apple a atteint une couverture de 24,33 %.
Ces analyses d’assistants sont déclenchées par l’utilisateur et plus ciblées. Ils servent directement les utilisateurs plutôt que de collecter des données de formation, ce qui peut expliquer pourquoi les sites les traitent différemment.
La recherche classique reste stable
Les robots des moteurs de recherche traditionnels sont restés stables tout au long de l’étude. Googlebot a maintenu une couverture moyenne de 72 % avec 14,7 milliards de requêtes. Bingbot est resté à une couverture de 57,67 %.
La stabilité contraste avec les changements dans la catégorie IA. Le principal robot d’exploration de Google se trouve dans une position unique puisque son blocage affecte la visibilité de la recherche.
Les outils de référencement affichent un déclin
Les robots d’exploration SEO et marketing ont vu leur couverture diminuer. Ahrefs a conservé la plus grande empreinte avec une couverture de 60 %, mais la catégorie a globalement diminué. Hostinger attribue cela à deux facteurs. Ces outils se concentrent de plus en plus sur les sites effectuant activement un travail de référencement. Et les propriétaires de sites Web bloquent les robots d’exploration gourmands en ressources.
J’ai fait état de problèmes de ressources lorsque les données de Vercel ont montré que GPTBot générait 569 millions de requêtes en un seul mois. Pour certains éditeurs, les coûts de bande passante sont devenus un problème commercial.
Pourquoi c’est important
Les données confirment une tendance qui s’est développée au cours de la dernière année. Les opérateurs de sites tracent une ligne entre les robots d’exploration IA qu’ils autorisent et ceux qu’ils ne autorisent pas.
La décision dépend du fonctionnement. Les robots de formation collectent du contenu pour améliorer les modèles sans renvoyer de trafic. Les robots assistants récupèrent le contenu pour répondre aux questions spécifiques des utilisateurs, ce qui signifie qu’ils peuvent faire apparaître votre contenu dans les résultats de recherche IA.
Hostinger suggère une voie médiane : bloquer les robots d’entraînement tout en autorisant les robots assistants qui pilotent la découverte. Cela vous permet de participer à la recherche d’IA sans contribuer à la formation du modèle.
Regarder vers l’avenir
OpenAI recommande d’autoriser OAI-SearchBot si vous souhaitez que votre site apparaisse dans les résultats de recherche ChatGPT, même si vous bloquez GPTBot.
La documentation d’OpenAI clarifie la différence. OAI-SearchBot contrôle l’inclusion dans les résultats de recherche ChatGPT et respecte robots.txt. ChatGPT-User gère la navigation initiée par l’utilisateur et peut ne pas être régie par robots.txt de la même manière.
Hostinger recommande de vérifier les journaux du serveur pour voir ce qui arrive réellement sur votre site, puis de prendre des décisions de blocage en fonction de vos objectifs. Si vous êtes préoccupé par la charge du serveur, vous pouvez utiliser le blocage au niveau CDN. Si vous voulez potentiellement augmentez la visibilité de votre IA, examinez les agents utilisateurs actuels des robots d’exploration d’IA et autorisez uniquement les robots spécifiques qui prennent en charge votre stratégie.