La recherche AI se mange elle-même et l’industrie du référencement en est la source

En septembre dernier, Lily Ray a demandé à Perplexity les dernières nouvelles sur le référencement et la recherche IA. Il lui a parlé, avec assurance, de la « mise à jour de l’algorithme de base « Perspective » de septembre 2025 » ; une mise à jour de Google qui, comme elle l’a ensuite longuement écrit dans « The AI Slop Loop », n’existait pas. Google n’a pas nommé les mises à jour principales depuis des années. « Perspectives » était déjà une fonctionnalité SERP. Si une véritable mise à jour avait été déployée pendant qu’elle était en Autriche, sa boîte de réception le lui aurait dit avant Perplexity.

Elle vérifia les citations. Tous deux ont pointé du doigt les articles générés par l’IA sur les blogs des agences de référencement : des sites qui avaient géré un pipeline de contenu, halluciné une mise à jour et l’ont publiée sous forme de rapport. Perplexity a lu le slop, l’a traité comme une source et le lui a rendu comme information.

En février, Thomas Germain de la BBC a passé 20 minutes à rédiger un article de blog sur son site personnel. Son titre : « Les meilleurs journalistes tech pour manger des hot-dogs ». Il l’a classé premier, a inventé un championnat international de hot-dogs du Dakota du Sud 2026 qui n’avait jamais eu lieu et ne citait précisément rien. En moins de 24 heures, les aperçus de l’IA de Google et ChatGPT transmettaient sa fabrication à tous ceux qui le demandaient. Claude n’a pas mordu. Google et OpenAI l’ont fait.

Tous ceux qui ont regardé l’ont vu.

J’ai déjà discuté des Ouroboros. Je me suis trompé de chronologie

La formulation dominante de ce problème a été effondrement du modèle. Vous entraînez un modèle sur du texte Web, le Web se remplit de résultats de l’IA, le modèle suivant s’entraîne sur un corpus de plus en plus constitué de son propre échappement, et finalement la distribution s’aplatit en bouillie. L’innovation vient des exceptions et les systèmes probabilistes qui convergent vers la moyenne atténuent les exceptions par conception. J’ai utilisé l’expression ouroboros numériques pour ça.

Ce cadrage suppose des cycles de formation. Cela prend du temps. Cela suppose que la contamination se déplace au rythme de la publication du modèle.

Ce n’est pas le cas. Ce que Lily a documenté, ce que Germain a documenté, ce que le New York Times a ensuite quantifié – rien de tout cela n’a trait à la formation. Les modèles impliqués n’ont pas été recyclés entre l’hallucination apparaissant sur un blog et la présentation de faits étayés par des citations. La contamination s’est déplacée à la vitesse d’un rampement. L’ouroboros ne met pas des générations à se manger. Il se mange au moment de la requête, chaque fois que quelqu’un pose une question à l’un de ces systèmes.

La conduite que tout le monde observe n’est pas celle qui se brise.

La distinction qui compte

L’effondrement du modèle est un problème de corpus de formation. Le contenu synthétique s’infiltre dans les données de pré-formation, la prochaine génération de modèle en hérite et les capacités se dégradent. Cela fait deux ans que les chercheurs alertent à ce sujet. Ils ont raison. Ils décrivent également quelque chose de suffisamment lent pour que tout le monde puisse hocher gravement la tête et continuer à expédier.

La récupération de la contamination est plus rapide et déjà là. Les systèmes RAG – Perplexity, Google AI Overviews, ChatGPT avec recherche – ne génèrent pas de réponses uniquement à partir de la mémoire paramétrique. Ils récupèrent des documents sur le Web en direct, les placent dans leur contexte et génèrent une réponse conditionnée par ce qu’ils ont récupéré. Si le retriever fait apparaître une publication SEO hallucinée, la réponse hérite de l’hallucination. Aucune reconversion requise.

La littérature académique à ce sujet est claire. EmpoisonnéRAG (Zou et al., 2024) ont montré que l’injection d’un petit nombre de passages spécialement conçus dans un corpus de récupération était suffisante pour contrôler la sortie d’un système RAG sur des requêtes ciblées. BadRAG (Xue et al., 2024) ont démontré la même classe d’attaques en utilisant des portes dérobées sémantiques. Les deux articles traitent cela comme un problème contradictoire : que se passe-t-il lorsqu’un attaquant empoisonne délibérément le corpus ?

Ce que Germain et Lily ont prouvé par hasard, c’est que le modèle accusatoire est le modèle opérationnel normal. Vous n’avez pas besoin d’un passage contradictoire conçu. Vous avez besoin d’un article de blog. Le Web ouvert est le corpus, et toute personne possédant un domaine peut y écrire.

L’analyse Oumi commandée par le New York Times chiffre ce que cela coûte. Sur l’ensemble des 4 326 tests SimpleQA, les aperçus de l’IA de Google ont répondu correctement dans 85 % des cas sur Gemini 2, et 91 % sur Gemini 3. À l’échelle de Google – plus de cinq mille milliards de recherches par an – un taux d’erreur de 9 % se traduit toujours par des dizaines de millions de mauvaises réponses chaque heure. Mais le chiffre le plus révélateur est le suivant : sur Gemini 3, 56 % des correct les réponses n’étaient pas fondées, contre 37 % sur Gemini 2. La mise à niveau a amélioré la précision de la surface et a aggravé les citations. Lorsque le modèle obtenait quelque chose de correct, plus de la moitié du temps, la source indiquée ne soutenait pas l’affirmation.

La couche de récupération n’est pas un filtre. C’est le vecteur d’infection.

Qui sème le corpus

L’industrie qui l’a produit avec le plus d’enthousiasme – puis a écrit avec le plus d’enthousiasme sur les conséquences de sa consommation – est l’industrie du référencement. J’ai déjà écrit sur le fait que la mise à l’échelle du contenu n’est qu’une simple rotation du contenu avec une meilleure grammaire, et sur le complexe d’outils de visibilité de l’IA qui crée des tableaux de bord à partir des résultats de systèmes non déterministes. C’est la même boucle, une couche plus profonde. Une agence de référencement gère un pipeline de contenu IA parce que les aperçus IA ont réduit le trafic de leurs clients. Le pipeline publie des messages spéculatifs sur les « gagnants et perdants » lors d’une mise à jour principale qui est toujours en cours de déploiement, sans rien citer. Le pipeline d’une autre agence les récupère comme sources. La sortie est inondée dans l’index de récupération. AI Overviews en cite un. L’agence d’origine rédige ensuite une étude de cas sur la façon dont les aperçus de l’IA « font surface » leur contenu.

Une étude Ahrefs portant sur plus de 26 000 URL sources ChatGPT a révélé que les listes « meilleurs X » représentaient près de 44 % de tous les types de pages cités, y compris les cas où les marques se classent en premier par rapport à leurs concurrents. Harpreet Chatha a déclaré à la BBC que vous pouvez publier « les meilleures chaussures imperméables pour 2026 », vous mettre en premier et être cité dans AI Overviews et ChatGPT en quelques jours. Lily, lors de la mise à jour principale de mars 2026, a trouvé des articles générés par l’IA prétendant répertorier les gagnants et les perdants alors que la mise à jour était encore en cours de déploiement ; des articles qui s’ouvraient avec du remplissage et des marques répertoriées sans une seule véritable citation.

Les praticiens qui mettent à l’échelle le contenu de l’IA sont également ceux qui sont le plus directement lésés lorsque les systèmes de recherche d’IA citent ce contenu comme un fait. Personne n’a forcé cela. L’industrie a construit le pipeline, l’a alimenté et s’est plainte de ce qui sortait à l’autre bout. Pas d’empoisonnement contradictoire. Il s’agit simplement de polluer son propre approvisionnement en eau et d’embaucher ensuite des consultants pour le tester.

Le niveau qui compte

L’étude Oumi porte sur les aperçus de l’IA, qui sont gratuits de par leur conception. Les aperçus de l’IA de Google auraient atteint plus de deux milliards d’utilisateurs actifs mensuels d’ici la mi-2025. ChatGPT compte environ 900 millions d’utilisateurs actifs hebdomadaires, dont environ 50 millions payants. Cela signifie qu’environ 94 % des personnes interagissant avec le produit OpenAI bénéficient du niveau gratuit.

Les niveaux payants sont meilleurs. Selon les affirmations de lancement d’OpenAI, citées dans l’article de Lily, GPT-5.4 est 33 % moins susceptible de produire de fausses déclarations individuelles que GPT-5.2. La version gratuite GPT-5.3 est également améliorée par rapport à son prédécesseur (26,8 % d’hallucinations en moins avec la recherche sur le Web, 19,7 % de moins sans), mais elle reste nettement moins fiable que la version payante. Gemini 3, qui a rendu les aperçus de l’IA plus précis sur les tests de surface, aussi a aggravé le taux non fondé. Meilleure réponse, citation plus faible.

Cela ne semble déranger personne. La version fiable du produit est payante. La version obtenue par la majeure partie de la planète – y compris la version figurant en haut de la recherche Google – peut être manipulée par 20 minutes de travail sur un site Web personnel. L’intelligence est la catégorie marketing. Ce que deux milliards d’utilisateurs reçoivent réellement est un résumé fiable de tout ce que le robot a trouvé.

Grokipedia comme état terminal

Les accidents de la couche de récupération sont une chose. Grokipedia est la version où accident n’est plus un mot utile.

xAI d’Elon Musk a lancé Grokipedia le 27 octobre 2025, avec 885 279 articles, tous générés ou réécrits par Grok. Certains d’entre eux ont été retirés de Wikipédia en gros, avec une clause de non-responsabilité en bas reconnaissant la licence CC-BY-SA ; une licence que Wikipédia maintient précisément parce qu’une communauté d’éditeurs humains écrit et vérifie le contenu. D’autres ont été réécrits à partir de zéro. PolitiFact a trouvé des citations de Grokipedia, y compris des bobines Instagram comme sources, que les propres politiques de Wikipédia excluent comme « généralement inacceptables ». L’article de Grokipedia sur la chanteuse canadienne Feist indique que son père est décédé en mai 2021, citant un article de Vice de 2017 sur le rock indépendant canadien qui ne faisait aucune mention du décès. Et son père était encore en vie lorsque cet article a été écrit. Le candidat au prix Nobel de physique a ajouté une phrase non citée affirmant que la physique est traditionnellement le premier prix décerné lors de la cérémonie, ce qui est faux.

Musk a déclaré que l’objectif était de « faire des recherches sur le reste d’Internet, tout ce qui est accessible au public, et de corriger l’article Wikipédia ». Le reste d’Internet inclut désormais le contenu synthétique produit par chaque pipeline de contenu IA pointé vers lui. Un système d’IA lisant le Web ouvert, réécrivant Wikipédia en fonction de ce qu’il trouve et présentant le résultat comme ouvrage de référence est le problème de récupération-contamination avec la boucle de rétroaction rendue explicite et expédiée sous forme de produit.

À la mi-février 2026, Grokipedia avait perdu l’essentiel de sa visibilité sur Google. Wikipedia surpasse Grokipedia pour les recherches sur Grokipedia lui-même.

« C’est sur ces connaissances créées par l’homme que s’appuient les sociétés d’IA pour générer du contenu ; même Grokipedia a besoin de Wikipédia pour exister. » – La Fondation Wikimédia

L’encyclopédie synthétique est subventionnée par l’encyclopédie humaine. Lorsque la subvention cesse, ce qui en dépend n’a plus de sens.

Wikipédia n’est pas à l’abri de toute critique. Ses guerres d’édition, ses contrôles idéologiques et ses lacunes systémiques quant à la responsabilité de façonner les articles sont bien documentés et réels. Mais la réponse à un processus éditorial humain défectueux n’est pas de supprimer entièrement les humains et de qualifier le résultat d’amélioration. J’ai déjà écrit sur le vide de responsabilité qui s’ouvre lorsque vous remplacez le jugement humain par des appels API. Les problèmes de Wikipédia sont ceux d’un système désordonné, contesté et responsable. Les problèmes de Grokipedia sont ceux d’un système sans aucune responsabilité.

La couche de citation se dissocie de la paternité

J’ai récemment écrit sur Reddit vendant « Authentic Human Conversation™ » à des sociétés d’IA, tandis que les propres modérateurs de la plateforme signalent qu’ils ne peuvent plus dire quels commentaires sont humains. L’étude Oumi a révélé que sur 5 380 sources citées par AI Overviews, Facebook et Reddit étaient les deuxième et quatrième sources les plus courantes. La couche de citations du moteur de réponse le plus utilisé au monde repose en grande partie sur deux plates-formes qui ne peuvent pas vérifier l’origine humaine de leur propre contenu.

Les créateurs humains se retirent du Web ouvert parce que le marché du trafic s’est effondré. Les moteurs de réponse citent des contenus dont la paternité ne peut être vérifiée ou qui n’a jamais été humaine. La citation est toujours là. La chose citée n’est plus ce qu’elle était.

Le cadrage des ouroboros était juste. La chronologie ne l’était pas. L’effondrement de la récupération n’attend pas la prochaine séance d’entraînement. Il a besoin d’une URL indexable et d’un système de récupération prêt à lui faire confiance.

Les systèmes sont disposés. Et plus de la moitié du temps, ils obtiennent une bonne réponse, ils ne peuvent pas citer une source qui étaye ce qu’ils viennent de vous dire.

Plus de ressources :

Cet article a été initialement publié sur The Inference.

La recherche AI ​​se mange elle-même et l’industrie du référencement en est la source