De nouvelles normes sont en cours d'élaboration pour étendre le protocole d'exclusion des robots et les balises Meta Robots, leur permettant d'empêcher tous les robots d'exploration IA d'utiliser du contenu Web accessible au public à des fins de formation. La proposition, rédigée par Krishna Madhavan, chef de produit principal chez Microsoft AI, et Fabrice Canel, chef de produit principal chez Microsoft Bing, permettra de bloquer facilement tous les robots d'exploration d'IA grand public avec une règle simple qui peut être appliquée à chaque robot d'exploration individuel.
Pratiquement tous les robots d'exploration légitimes obéissent aux balises Robots.txt et Meta Robots, ce qui fait de cette proposition un rêve devenu réalité pour les éditeurs qui ne souhaitent pas que leur contenu soit utilisé à des fins de formation en IA.
Groupe de travail sur l'ingénierie Internet (IETF)
L'Internet Engineering Task Force (IETF) est un groupe international d'élaboration de normes Internet fondé en 1986 qui coordonne le développement et la codification de normes sur lesquelles tout le monde peut volontairement se mettre d'accord. Par exemple, le protocole d'exclusion des robots a été créé indépendamment en 1994 et, en 2019, Google a proposé que l'IETF l'adopte comme norme officielle avec des définitions convenues. En 2022, l'IETF a publié un protocole officiel d'exclusion des robots qui définit de quoi il s'agit et étend le protocole d'origine.
Trois façons de bloquer les robots d'entraînement IA
Le projet de proposition visant à bloquer les robots d’entraînement à l’IA suggère trois manières de bloquer les robots :
- Protocoles Robots.txt
- Éléments HTML des méta-robots
- En-tête de réponse de la couche application
1. Robots.Txt pour bloquer les robots IA
Le projet de proposition vise à créer des règles supplémentaires qui étendront le protocole d’exclusion des robots (Robots.txt) aux robots d’entraînement IA. Cela instaurera un certain ordre et donnera aux éditeurs le choix des robots autorisés à explorer leurs sites Web.
L'adhésion au protocole Robots.txt est volontaire, mais tous les robots légitimes ont tendance à y obéir.
Le projet explique l'objectif des nouvelles règles Robots.txt :
« Alors que le protocole d'exclusion des robots permet aux propriétaires de services de contrôler comment, le cas échéant, les clients automatisés appelés robots d'exploration peuvent accéder aux URI de leurs services, tels que définis par [RFC8288]le protocole ne fournit pas de contrôles sur la manière dont les données renvoyées par leur service peuvent être utilisées dans la formation de modèles de base d'IA génératifs.
Les développeurs d'applications sont priés d'honorer ces balises. Les balises ne constituent cependant pas une forme d’autorisation d’accès.
Une qualité importante des nouvelles règles robots.txt et des éléments HTML des méta-robots est que les robots légitimes de formation à l'IA ont tendance à accepter volontairement de suivre ces protocoles, ce que font tous les robots légitimes. Cela simplifiera le blocage des robots pour les éditeurs.
Voici les règles Robots.txt proposées :
- DisallowAITraining – demande à l'analyseur de ne pas utiliser les données pour le modèle de langage de formation de l'IA.
- AllowAITraining : indique à l'analyseur que les données peuvent être utilisées pour le modèle de langage de formation de l'IA.
2. Élément HTML (balise méta Robots)
Voici les directives proposées pour les méta-robots :
3. En-tête de réponse de la couche application
Les en-têtes de réponse de la couche application sont envoyés par un serveur en réponse à la demande d'un navigateur pour une page Web. La proposition suggère d’ajouter de nouvelles règles aux en-têtes de réponse de la couche application pour les robots :
« DisallowAITraining – demande à l'analyseur de ne pas utiliser les données pour le modèle de langage de formation de l'IA.
AllowAITraining – indique à l'analyseur que les données peuvent être utilisées pour le modèle de langage de formation de l'IA.
Offre un meilleur contrôle
Les sociétés d’IA ont été poursuivies en justice sans succès pour avoir utilisé des données accessibles au public. Les sociétés d’IA ont affirmé qu’il était équitable d’explorer des sites Web accessibles au public, tout comme les moteurs de recherche le font depuis des décennies.
Ces nouveaux protocoles permettent aux éditeurs Web de contrôler les robots d'exploration dont le but est de consommer des données de formation, en alignant ces robots sur les robots de recherche.
Lisez la proposition à l'IETF :
Extension du protocole d'exclusion des robots pour gérer l'utilisation du contenu de l'IA