Les éditeurs américains exigent que Common Crawl arrête de supprimer leur contenu

Digital Content Next, un organisme professionnel représentant les éditeurs numériques américains, a envoyé une lettre de cessation et d’abstention à la Common Crawl Foundation.

La lettre demande à Common Crawl de cesser de collecter le contenu des éditeurs et de supprimer le matériel déjà présent dans ses ensembles de données.

Le PDG de DCN, Jason Kint, a annoncé l’avis juridique dans un article de blog, et Press Gazette a rapporté des détails supplémentaires sur la lettre cette semaine.

Common Crawl a exploré plusieurs milliards de nouvelles pages chaque mois depuis 2007 pour créer une archive publique gratuite. Ces archives ont été utilisées pour entraîner de nombreux modèles d’IA utilisés aujourd’hui. L’article GPT-3 d’OpenAI répertorie Common Crawl filtré comme 60 % du mélange de formation du modèle.

Le différend est important pour tout site qui bloque les robots d’exploration IA. Le blocage du robot d’exploration de Common Crawl, CCBot, arrête la collecte future mais ne touche pas le contenu déjà présent dans l’archive, que tout le monde peut toujours télécharger.

Ce que DCN exige

La lettre appelle Common Crawl à cesser de « récupérer, conserver ou partager du contenu protégé par le droit d’auteur, payant, réservé aux abonnés ou autrement protégé des sociétés membres de DCN dans ses ensembles de données » et à supprimer le contenu des membres qu’il a déjà collecté.

DCN affirme que Common Crawl a « violé de manière flagrante » le contenu protégé par le droit d’auteur en créant ses ensembles de données et en les partageant avec des sociétés d’IA.

La lettre affirme que « la loi sur le droit d’auteur n’est pas un régime de non-participation ». En d’autres termes, la position de DCN est que les éditeurs ne devraient pas avoir à demander à être exclus. Common Crawl devrait avoir besoin d’une autorisation pour les inclure.

Kint a écrit que l’avis :

« remet en question l’hypothèse de plus en plus répandue selon laquelle le contenu créé grâce à des investissements substantiels peut être collecté, stocké, réutilisé et monétisé simplement parce qu’il est techniquement accessible. »

Pourquoi DCN doute du processus de suppression

La lettre de DCN se demande si Common Crawl suit les instructions de désinscription et s’il supprime le contenu lorsqu’il lui est demandé. Selon Press Gazette, les avocats de DCN examinent si les déclarations de Common Crawl aux éditeurs « auraient pu être inexactes ou trompeuses ».

Common Crawl publie un registre public des sites Web qui ont demandé à ne pas être supprimés. Il comprend des entrées pour l’Associated Press, la BBC et une importante soumission de News/Media Alliance couvrant des centaines de domaines. Press Gazette rapporte que la liste comprend également d’autres grands éditeurs.

Ce n’est pas la première fois que le processus de suppression est remis en question. The Atlantic a rapporté en novembre que le contenu du New York Times et des éditeurs danois était toujours disponible après que Common Crawl ait accepté de le supprimer.

Réponse de Common Crawl

Le directeur exécutif de Common Crawl, Rich Skrenta, a refusé de commenter la lettre lorsqu’il a été contacté par Press Gazette.

Il a déjà repoussé des affirmations similaires. Dans un article de blog de novembre répondant à The Atlantic, Skrenta a nié que l’organisation ait menti aux éditeurs ou ait supprimé du matériel payant.

Il a déclaré que le format de fichier de l’archive ne pouvait pas être modifié après la publication sans rompre son intégrité. Au lieu de cela, Common Crawl indique qu’il supprime ou filtre les URL concernées des analyses ultérieures et les rend inaccessibles via ses outils et index publics :

« Lorsqu’un éditeur nous demande de supprimer du matériel précédemment exploré, nous répondons rapidement et lançons un processus de suppression qui reflète la conception technique de notre ensemble de données. »

Il a ajouté :

« Personne chez Common Crawl n’a jamais prétendu que ce travail était instantané ou complet ; nous avons plutôt été ouverts sur sa complexité et sa nature continue. »

Dans un message publié sur le forum cette semaine, Skrenta a déclaré que Common Crawl contribue au travail sur les normes ouvertes sur la façon dont les sites Web expriment les préférences de grattage de l’IA.

Pourquoi c’est important

La lettre du DCN cible les archives stockées, et pas seulement l’exploration future, et soutient que la charge de se désinscrire ne devrait pas incomber aux éditeurs en premier lieu.

La plupart des éditeurs de l’échantillon de BuzzStream ont déjà pris la décision de blocage, avec 79 % des 100 sites d’information vérifiés bloquant au moins un robot d’entraînement. Les données de revue de l’année de Cloudflare que nous avons couvertes en janvier ont trouvé CCBot parmi les robots avec les directives d’interdiction les plus complètes dans les principaux domaines. La question soulevée par DCN est de savoir ce que ces blocages accomplissent si des années de contenu restent de toute façon disponibles pour la formation.

Regarder vers l’avenir

L’escalade du DCN dépend de la façon dont Common Crawl répond, et Common Crawl n’a pas précisé comment il le ferait. Les deux parties veulent des règles différentes quant à savoir qui agit en premier.

Skrenta soutient le travail de normalisation qui permettrait aux sites d’indiquer leurs préférences en matière de scraping, qui continuent de se retirer en tant que modèle. La CMA du Royaume-Uni a emprunté une voie similaire lorsqu’elle a demandé à Google de permettre aux éditeurs de désactiver les fonctionnalités de recherche de l’IA.

DCN soutient que les scrapers devraient d’abord avoir besoin d’une autorisation. Si davantage de groupes professionnels adoptent cet argument, la pression se déplacera des fichiers robots.txt individuels vers les archives elles-mêmes.