Aperçus de l'IA de Google = Vol ? Une décision de justice crée un précédent

La nouvelle vision audacieuse de Google pour l'avenir de la recherche en ligne, alimentée par la technologie de l'IA, alimente une réaction négative à l'échelle de l'industrie, craignant qu'elle ne nuise à l'écosystème ouvert d'Internet.

Au centre de la controverse se trouvent les « AI Overviews » récemment lancés par Google, qui sont des résumés générés visant à répondre directement aux requêtes de recherche en extrayant des informations provenant du Web.

Les aperçus de l'IA apparaissent bien en évidence en haut des pages de résultats, limitant potentiellement le besoin des utilisateurs de cliquer sur les sites Web des éditeurs.

Cette décision a déclenché des poursuites judiciaires en France, où des éditeurs ont déposé des plaintes accusant Google de violation des droits de propriété intellectuelle en ingérant leur contenu pour entraîner des modèles d'IA sans autorisation.

Un groupe d’éditeurs français a remporté une première bataille judiciaire en avril 2024. Un juge a ordonné à Google de négocier une compensation équitable pour la réutilisation d’extraits de leur contenu.

Aux États-Unis, les éditeurs soulèvent des objections similaires, car les nouveaux aperçus de recherche de Google par l'IA menacent de siphonner le trafic des sources. Ils soutiennent que Google profite injustement du contenu des autres.

Le débat souligne la nécessité de mettre à jour les cadres régissant l’utilisation des données en ligne à l’ère de l’IA.

Préoccupations des éditeurs

Selon les observateurs du secteur, les implications des aperçus de l’IA pourraient avoir un impact sur des millions de créateurs indépendants qui dépendent du trafic de référencement de la recherche Google.

Frank Pine, rédacteur en chef de MediaNews Group, déclare au Washington Post :

« Si les journalistes se faisaient ça entre eux, on appellerait ça du plagiat. »

La société de Pine, qui publie le Denver Post et le Boston Herald, fait partie de ceux qui poursuivent OpenAI pour avoir prétendument supprimé des articles protégés par le droit d'auteur afin d'entraîner leurs modèles linguistiques.

Le modèle de revenus de Google repose depuis longtemps sur la génération de trafic vers d'autres sites Web et la monétisation de ce flux via des canaux publicitaires payants.

Les aperçus de l’IA menacent de modifier ce modèle de revenus.

Kimber Matherne, qui dirige un blog culinaire, est citée dans l'article déclarant :

« [Google’s] L'objectif est de permettre aux gens de trouver aussi facilement que possible les informations qu'ils souhaitent. Mais si vous excluez les personnes qui sont l’élément vital de la création de ces informations, cela ne rendra pas service au monde. »

Selon le rapport du Post, Raptive, une société de services publicitaires, estime que les changements pourraient entraîner une perte de revenus de 2 milliards de dollars pour les créateurs en ligne.

Ils pensent également que certains sites Web pourraient perdre les deux tiers de leur trafic de recherche.

Le PDG de Raptive, Michael Sanchez, a déclaré au Post :

« Ce qui n’était déjà pas des règles du jeu équitables pourrait se frayer un chemin jusqu’au point où l’Internet ouvert commence à devenir en danger de survivre. »

Préoccupations des professionnels de l'industrie

Les aperçus de l'IA de Google suscitent naturellement des inquiétudes parmi les professionnels du secteur, comme l'expriment de nombreux tweets critiquant cette décision.

Matt Gibbs s'est demandé comment Google avait développé la base de connaissances pour son IA, déclarant sans ambages : « Ils l'ont arnaqué aux éditeurs qui ont fait le travail réel pour créer les connaissances. Google est une bande de voleurs.

Dans son tweet, Kristine Schachinger a fait écho à des sentiments similaires, qualifiant les réponses de l'IA de Google de « moteur de vol numérique complet qui empêchera les sites d'obtenir des clics ».

Gareth Boyd a retweeté une citation de l'article du Washington Post soulignant les difficultés du blogueur Jake Boly, dont le site a récemment connu une baisse de 96 % du trafic sur Google.

Boyd a déclaré : « Le précédent créé par OpenAI et Google est effrayant… » et que « davantage de personnes devraient être également en colère » contre les deux sociétés pour le « vol ouvert de contenu ».

Dans son tweet, Avram Piltch a directement accusé Google de vol, déclarant : « les données utilisées pour entraîner leur IA provenaient des mêmes éditeurs qui ont permis à Google de les explorer et vont maintenant être lésées. C’est du vol, purement et simplement. Et c'est une menace pour l'avenir du Web.

Lily Ray a fait une déclaration similaire à propos de Google : « En utilisant tout le contenu qu'ils ont extrait des sites qui ont créé Google. Avec peu ou pas d’attribution ou de trafic.

Zone grise juridique

La controverse s’inscrit dans des débats plus larges autour de la propriété intellectuelle et de l’utilisation équitable, alors que les systèmes d’IA sont entraînés à des échelles sans précédent de données récupérées sur Internet.

Google affirme que ses modèles n'ingèrent que des données Web accessibles au public et que les éditeurs bénéficiaient auparavant du trafic de recherche.

Les éditeurs consentent implicitement à ce que leur contenu soit indexé par les moteurs de recherche, sauf s'ils se désengagent.

Cependant, les lois n’ont pas été conçues en pensant à la formation de modèles d’IA.

Quelle est la voie à suivre ?

Ce débat met en évidence la nécessité de nouvelles règles sur la manière dont l’IA utilise les données en ligne.

La voie à suivre n’est pas claire, mais les enjeux sont élevés.

Certains suggèrent un partage des revenus ou des frais de licence lorsque le contenu de l’éditeur est utilisé pour former des modèles d’IA. D'autres proposent un système d'adhésion qui donne aux propriétaires de sites Web plus de contrôle sur la manière dont leur contenu est utilisé pour la formation en IA.

Les décisions françaises suggèrent que les tribunaux peuvent intervenir sans directives explicites ni négociations de bonne foi.

Le Web a toujours reposé sur un équilibre entre les moteurs de recherche et les créateurs de contenu. Si cet équilibre est rompu sans de nouvelles garanties, cela pourrait compromettre l’échange d’informations qui rend Internet si précieux.