Plus de sites bloquant l'exploration LLM

Hostinger a publié une analyse montrant que les entreprises bloquent les systèmes d’IA utilisés pour former de grands modèles de langage tout en permettant aux assistants d’IA de continuer à lire et à résumer davantage de sites Web. La société a examiné 66,7 milliards d’interactions de robots sur 5 millions de sites Web et a constaté que les robots d’exploration assistants IA utilisés par des outils tels que ChatGPT atteignent désormais davantage de sites, même si les entreprises restreignent d’autres formes d’accès à l’IA.

Analyse Hostinger

Hostinger est un hébergeur Web et également une plate-forme sans code pilotée par un agent d’IA pour la création d’entreprises en ligne. La société a déclaré avoir analysé les journaux de sites Web anonymisés pour mesurer la manière dont les robots d’exploration vérifiés accèdent aux sites à grande échelle, lui permettant ainsi de comparer les changements dans la façon dont les moteurs de recherche et les systèmes d’IA récupèrent le contenu en ligne.

L’analyse qu’ils ont publiée montre que les robots d’exploration assistants IA ont étendu leur portée sur les sites Web sur une période de cinq mois. Les données ont été collectées au cours de trois fenêtres de six jours en juin, août et novembre 2025.

SearchBot d’OpenAI a augmenté la couverture des sites de 52 à 68 pour cent, tandis qu’Applebot (qui indexe le contenu pour alimenter les fonctionnalités de recherche d’Apple) a doublé, passant de 17 à 34 pour cent. Au cours de la même période, les robots de recherche traditionnels sont restés essentiellement constants. Les données indiquent que les assistants IA ajoutent une nouvelle couche à la manière dont les informations parviennent aux utilisateurs plutôt que de remplacer purement et simplement les moteurs de recherche.

Dans le même temps, les données montrent que les entreprises ont considérablement réduit l’accès aux robots d’exploration de l’IA. GPTBot d’OpenAI n’était plus accessible sur 84 % des sites Web en août, à 12 % en novembre. L’ExternalAgent de Meta est passé de 60 pour cent de couverture à 41 pour cent de couverture du site Web. Ces robots collectent des données au fil du temps pour améliorer les modèles d’IA et mettre à jour leurs connaissances paramétriques, mais de nombreuses entreprises les bloquent, soit pour limiter l’utilisation des données, soit par crainte de problèmes de violation des droits d’auteur.

Connaissance paramétrique

Les connaissances paramétriques, également connues sous le nom de mémoire paramétrique, sont les informations « codées en dur » dans le modèle pendant la formation. On l’appelle « paramétrique » car la connaissance est stockée dans les paramètres du modèle (les poids). La connaissance paramétrique est une mémoire à long terme sur des entités, par exemple des personnes, des choses et des entreprises.

Lorsqu’une personne pose une question à un LLM, celui-ci peut reconnaître une entité comme une entreprise, puis récupérer les vecteurs (faits) associés qu’il a appris au cours de la formation. Ainsi, lorsqu’une entreprise ou une société bloque un robot de formation sur son site Web, elle empêche le LLM de savoir quoi que ce soit à son sujet, ce qui n’est peut-être pas la meilleure chose pour une organisation soucieuse de la visibilité de l’IA.

Permettre à un robot de formation IA d’explorer le site Web d’une entreprise permet à cette entreprise d’exercer un certain contrôle sur ce que le LLM sait à son sujet, y compris ce qu’elle fait, la marque, tout ce qui se trouve dans À propos de nous, et permet au LLM de connaître les produits ou services offerts. Un site d’information peut bénéficier d’être cité pour obtenir des réponses.

Les entreprises se désengagent des connaissances paramétriques

L’analyse de Hostinger montre que les entreprises bloquent « de manière agressive » les robots d’exploration de l’IA. Bien que les recherches de Hostinger ne le mentionnent pas, le blocage des robots de formation IA a pour effet que les entreprises se désengagent essentiellement des connaissances paramétriques du LLM, car le LLM ne peut pas apprendre directement du contenu propriétaire pendant la formation, supprimant ainsi la capacité du site à raconter sa propre histoire et forçant le LLM à s’appuyer sur des données ou des graphiques de connaissances tiers.

Les recherches de Hostinger montrent :

« En suivant 66,7 milliards d’interactions de robots sur 5 millions de sites Web, Hostinger a découvert un paradoxe important :

Les entreprises bloquent de manière agressive les robots de formation à l’IA, les systèmes qui récupèrent le contenu pour créer des modèles d’IA. Le GPTBot d’OpenAI est passé de 84 % à 12 % des sites Web en trois mois.

Cependant, les robots d’exploration de l’assistant IA, la technologie utilisée par ChatGPT, Apple, etc. pour répondre aux questions des clients, se développent rapidement. Le SearchBot d’OpenAI est passé de 52 % à 68 % des sites ; Applebot a doublé pour atteindre 34 %.

Un article récent sur Reddit montre comment le blocage de l’accès LLM au contenu est normalisé et compris comme un moyen de protéger la propriété intellectuelle (IP).

L’article commence par une première question demandant comment bloquer les IA :

«Je veux m’assurer que mon site continue d’être indexé dans la recherche Google, mais je ne veux pas que Gemini, ChatGPT ou d’autres récupèrent et utilisent mon contenu.

Quelle est la meilleure façon de procéder ?

Capture d’écran d’une conversation Reddit

Plus tard dans ce fil, quelqu’un a demandé s’il bloquait les LLM pour protéger sa propriété intellectuelle et l’auteur original a répondu par l’affirmative, que c’était la raison.

La personne qui a lancé la discussion a répondu :

« Nous publions du contenu unique qui n’existe pas vraiment ailleurs. Les LLM apprennent souvent des choses dans ce petit créneau grâce à nous. Nous avons donc besoin du trafic de Google mais pas des LLM. »

Cela peut être une raison valable. Un site qui publie des informations pédagogiques uniques sur un produit logiciel qui n’existe pas ailleurs peut vouloir empêcher un LLM d’indexer son contenu, car s’il ne le fait pas, le LLM sera en mesure de répondre aux questions tout en supprimant le besoin de visiter le site.

Mais pour d’autres sites avec un contenu moins unique, comme un site d’évaluation et de comparaison de produits ou un site de commerce électronique, ce n’est peut-être pas la meilleure stratégie pour empêcher les LLM d’ajouter des informations sur ces sites dans leur mémoire paramétrique.

Le message de marque est perdu au profit des LLM

Comme les assistants IA répondent directement aux questions, les utilisateurs peuvent recevoir des informations sans avoir besoin de visiter un site Web. Cela peut réduire le trafic direct et limiter la portée des détails de tarification, du contexte du produit et du message de la marque d’une entreprise. Il est possible que le parcours client se termine à l’intérieur de l’interface IA et que les entreprises qui empêchent les LLM d’acquérir des connaissances sur leurs entreprises et leurs offres s’appuient essentiellement sur le robot d’exploration et l’index de recherche pour combler cette lacune (et peut-être que cela fonctionne ?).

L’utilisation croissante des assistants IA affecte le marketing et s’étend à la prévision des revenus. Lorsque les systèmes d’IA résument les offres et les recommandations, les entreprises qui bloquent les LLM ont moins de contrôle sur l’apparence des prix et de la valeur. Les efforts publicitaires perdent de la visibilité plus tôt dans le processus de décision, et l’attribution du commerce électronique devient plus difficile lorsque les achats suivent les réponses générées par l’IA plutôt que les visites directes du site.

Selon Hostinger, certaines organisations deviennent plus sélectives quant au contenu disponible pour l’IA, en particulier pour les assistants IA.

Tomas Rasymas, responsable de l’IA chez Hostinger a commenté :

« Avec les assistants IA répondant de plus en plus directement aux questions, le Web passe d’un modèle axé sur le clic à un modèle médié par des agents. Le véritable risque pour les entreprises n’est pas l’accès à l’IA lui-même, mais la perte de contrôle sur la façon dont les prix, le positionnement et la valeur sont présentés lorsque les décisions sont prises. «

Emporter

Empêcher les LLM d’utiliser les données du site Web pour la formation n’est pas vraiment la position par défaut à adopter, même si de nombreuses personnes ressentent une réelle colère et un réel agacement à l’idée d’une formation LLM sur leur contenu. Il peut être utile d’adopter une réponse plus réfléchie qui pèse les avantages par rapport aux inconvénients et de déterminer également si ces inconvénients sont réels ou perçus.

Plus de sites bloquant l’exploration LLM