« Il existe désormais de nombreuses preuves, recueillies au cours des dernières années, que les systèmes d’IA sont imprévisibles et difficiles à contrôler. » C’est Dario Amodei qui écrit en janvier sur la technologie vendue par son entreprise.
Comparez avec ce qui figure sur votre chronologie LinkedIn cette semaine. Voici le script : Le balisage de schéma garantit que les moteurs d’IA analysent votre contenu. La première phrase de chaque section doit être la réponse. Optimisez pour la récupération au niveau des morceaux. Il y a une augmentation des citations de 13 % disponible si vous faites X, une amélioration de la conversion de 2,8 fois si vous faites Y.
C’est l’un des modèles les plus propres actuellement, et l’industrie a choisi de ne pas le remarquer. Les personnes les plus proches de ces systèmes sont de plus en plus prudentes quant aux revendications de contrôle. Les gens les plus éloignés sont de plus en plus certains de savoir comment cela fonctionne… ils l’ont découvert. Ce dégradé va dans le mauvais sens.
Ce que disent réellement les gens qui l’ont construit
Anthropic a publié son principal article de recherche sur l’interprétabilité en mai 2024. Il s’ouvre :
« Nous traitons principalement les modèles d’IA comme une boîte noire : quelque chose entre et une réponse en sort, et on ne sait pas pourquoi le modèle a donné cette réponse particulière plutôt qu’une autre. »
Anthropic, écrivant sur son propre modèle, il y a deux ans.
Depuis, les choses ne sont pas devenues plus confiantes. Neel Nanda, qui dirige l’équipe d’interprétabilité mécaniste de Google DeepMind, a donné une interview à 80 000 Hours en septembre 2025 dans laquelle le principal constat était que la version la plus ambitieuse de l’interprétariat mécanique est probablement morte. Il ne voit pas un monde réaliste dans lequel la discipline offrirait « le genre de garanties solides que certaines personnes attendent de l’interprétabilité ». A relire.
La personne dont le travail consiste à lire dans les pensées de l’IA admet publiquement que le projet, tel qu’il a été conçu à l’origine, n’aboutira pas.
Lors de NeurIPS 2024, Ilya Sutskever, co-fondateur de Safe Superintelligence et ancien scientifique en chef chez OpenAI, a accepté son prix Test of Time et a utilisé la plateforme pour dire quelque chose que la salle n’attendait pas de lui :
« Plus ça raisonne, plus ça devient imprévisible. »
La carrière de Sutskever est essentiellement une hypothèse de mise à l’échelle avec un visage. L’entendre dire que la prochaine phase produit des résultats moins prévisibles est en soi un aveu.
Revenez maintenant à votre chronologie. Le gradient est celui de Dunning-Kruger redessiné à l’échelle industrielle : le mont Stupid avec une page de tarification et la vallée de l’étalonnage où le travail réel se déroule.
Ce que disent réellement les gens qui le vendent
Un praticien publie un cadre à quatre piliers pour le « GEO technique ». Un consultant garantit l’inclusion dans les aperçus d’IA. Une agence commercialise une augmentation de 13 % de la probabilité de citation, dérivée des données qu’elle a elle-même produites sur ses propres prescriptions. Un article largement partagé promet que le maintien d’une limite de paragraphes de 300 caractères dicte la manière dont une base de données vectorielle décompose votre contenu. Un fournisseur revendique une « part de modèle » de 78 %. Un haut responsable dans votre boîte de réception décrit une amélioration de 2,8 fois de la conversion après avoir été cité dans SGE.
Le vocabulaire est déterministe : « assure », « garantit », « dicte », des pourcentages précis à la décimale, des cadres nommés avec assurance. Rien de tout cela ne ressemble en rien au langage utilisé par les personnes qui ont construit ces systèmes pour décrire le comportement de ces systèmes.
C’est la partie sur laquelle je reste coincé. Les consultants sont confiants dans les tactiques qu’ils ont mesurées par rapport à eux-mêmes. Exécutez le même playbook sur quelques clients, observez l’évolution de certaines mesures, appelez cela des preuves. Pas de groupes de contrôle, pas d’hypothèses préenregistrées, pas de mesure de ce que la tactique est réellement censée changer. C’est la barre qu’un véritable test doit franchir ; tout le reste a été confirmé dans le costume. Le problème est le niveau de confiance, qui est erroné d’un ordre de grandeur, que la tactique sous-jacente ait ou non un effet. Le même modèle qu’Anthropic déclare publiquement ne pas pouvoir pleinement prendre en compte est optimisé par des personnes qui prétendent avec confiance savoir exactement ce qu’elles font.
Soit Anthropic s’est montré étrangement modeste en public, soit quelqu’un d’autre en est étrangement certain.
Quand quelqu’un teste
Lundi, la semaine dernière, Ahrefs a publié une étude de Louise Linehan et Xibeijia Guan avec un titre qui devrait idéalement être impossible : Nous avons suivi 1 885 pages en ajoutant un schéma. Les citations de l’IA ont à peine bougé.
La méthodologie est le genre de travail que l’on s’attendrait à ce qu’il soit standard, si la discipline se souciait des normes. 1 885 pages ayant ajouté le schéma JSON-LD entre août 2025 et mars 2026. 4 000 pages de contrôle correspondantes. Les modifications des citations ont été mesurées 30 jours avant et 30 jours après l’ajout du schéma, dans les aperçus de l’IA de Google, le mode IA de Google et ChatGPT. Différences de différences sur les groupes appariés.
Le résultat : aucune augmentation significative des citations sur aucune plateforme. Les aperçus de l’IA ont en fait montré une baisse légère mais statistiquement significative. Le rapport note que les chances qu’un écart aussi important soit dû au hasard sont d’environ 1 sur 2 500. La thèse selon laquelle les schémas permettent aux LLM de comprendre votre contenu, testée à grande échelle par rapport à une base de référence contrôlée, n’a pas survécu au test.
C’est la confirmation empirique du cas technique que j’ai présenté il y a une semaine dans Le problème était le désordre: que les LLM lisent un langage non structuré et que les prescriptions de schéma et de fragmentation raisonnent sur une architecture qui n’existe pas. Des premiers principes, il y a deux semaines. De mesure contrôlée, lundi dernier.
Cela vaut la peine de s’asseoir avec ça. La catégorie prescriptive dominante dans l’ensemble du playbook GEO a été falsifiée empiriquement dans des conditions contrôlées, par un fournisseur disposant d’un public important, au grand jour. Et les frameworks continuent de se vendre.
Puis Google lui-même a répondu
Le 15 mai 2026, Google a publié une documentation officielle sur l’optimisation des fonctionnalités d’IA générative dans la recherche. La page mythifie les prescriptions GEO par écrit : les fichiers llms.txt ne sont pas nécessaires ; le découpage du contenu n’est pas nécessaire ; la réécriture du contenu pour les systèmes d’IA n’est pas nécessaire ; un balisage de schéma spécial n’est pas requis ; rechercher des mentions inauthentiques n’aide pas. Le cadrage est inhabituellement direct pour une page de développeur Google :
« De nombreux ‘hacks’ suggérés ne sont pas efficaces ou ne sont pas pris en charge par le fonctionnement réel de la recherche Google. »
Google nomme Answer Engine Optimization et Generative Engine Optimization par leurs termes complets et rejette catégoriquement le playbook.

C’est le moteur de recherche pour lequel les consultants prétendent optimiser, disant à leur propre public de développeurs que les optimisations ne fonctionnent pas. Des premiers principes, il y a deux semaines. De mesure contrôlée, lundi dernier. De Google lui-même, vendredi dernier. Trois sources indépendantes d’une même réponse, le tout en une quinzaine de jours. Tout cela est ignoré par ceux qui vendent le contraire.
Le coût de la demande
C’est là que le diagnostic cesse d’être poli.
Les affirmations confiantes s’accumulent sur ces plateformes, contrairement aux corrections sceptiques. La différence réside dans qui paie. Publier une réclamation en toute confiance ne vous coûte rien. Il suscite l’engagement, crée une audience, génère des flux entrants et donne au diaporama un aspect tourné vers l’avenir. Si cela s’avère faux, rien ne se passe. Au moment où quelqu’un le remarque, tout le monde est passé à l’acronyme suivant.
Publier la correction vous coûte cher. Il choisit un combat. Cela vous marque comme un anti-conformiste, ou pire, comme quelqu’un qui ne comprend pas. Sur LinkedIn, où cela se produit la plupart du temps, cela va à l’encontre de votre marque professionnelle. L’algorithme ne le récompensera pas. L’affiche originale possède la section des commentaires et peut ignorer votre question méthodologique tout en abordant les réponses de félicitations. Votre réponse se trouve dans un fil de discussion réduit.
Il y a un mouvement spécifique qui mérite d’être mentionné ici. Demandez à un consultant GEO d’expliquer, en termes simples, ce que fait réellement sa méthodologie, sur quel mécanisme elle agit, ce qui compterait comme preuve, ce qui la falsifierait. La réponse dégénère en jargon. « Alignement de l’espace vectoriel. » « Optimisation des requêtes T1. » « Récupération sémantique au niveau des fragments. » Termes réels issus de la recherche sur l’apprentissage automatique, collés dans des combinaisons qui semblent rigoureuses et résistent à la vérification en langage simple. Le modèle fonctionne parce qu’il le peut. Se demander « qu’est-ce que cela signifie réellement » semble naïf, et les observateurs sans connaissances techniques spécifiques ne peuvent pas dire quelles combinaisons sont réelles et lesquelles sont improvisées sur place.
Lisez les commentaires sur toute publication GEO à fort engagement. Quinze réponses, 12 sont des accords ou « voici une autre compétence à ajouter à votre liste ». Deux ou trois d’entre eux formulent des scepticismes diplomatiquement formulés : « J’aimerais voir plus de données » ou « La liste est exacte, mais… » L’auteur s’attaque de manière substantielle à l’objection philosophique car il est facile de s’opposer au « c’est trop technique ». L’objection méthodologique, selon laquelle les compétences prescrites produisent une spéculation sûre sans couche de mesure en dessous, est enterrée de la manière la plus polie.
Cela revient à faire du gaslighting à l’échelle de l’industrie. Les personnes qui lisent correctement la technologie se positionnent comme celles qui n’ont pas rattrapé leur retard ; les prescriptions qui viennent de falsifier les tests de contrôle sont vendues comme prospectives. GEO a trouvé comment faire en sorte que l’étalonnage ressemble à une déficience.
Une récente expérience X a capturé la dynamique en dehors du référencement. Quelqu’un a posté un tableau de Monet et a affirmé qu’il avait été généré par une IA, demandant aux réponses d’expliquer son infériorité par rapport à un vrai Monet. Des centaines de personnes ont répondu, cataloguant avec confiance les « récits de l’IA ». Coup de pinceau plat, composition sans âme, pas de cohésion, pas d’âme. Ils analysaient un Monet. Le cadre déterminait ce qu’ils voyaient.

Le message d’origine, où de nombreuses réponses initiales ont maintenant été supprimées.

C’est la même astuce. Le vocabulaire remplace le fond ; le cadrage active le biais de confirmation avant le début de tout examen ; la performance de l’analyse devient ce qui est acheté plutôt que l’analyse elle-même ; « c’est X » arrive avant que quiconque ne vérifie si c’est le cas. Une fois le cadre posé, l’analyse suit.
Ainsi, les personnes les plus équipées pour repousser, les praticiens qui ont réellement essayé de tester des choses, les référenceurs techniques qui savent ce que le schéma fait et ne fait pas, ceux qui peuvent repérer un numéro d’ascenseur fabriqué de l’autre côté de la pièce, restent silencieux.
Le résultat, selon les délais indiqués par la C-suite, est un marché unilatéral.
Le coût incombe aux personnes qui achètent la créance. Les clients paient pour les audits de schémas que l’étude Ahrefs vient de falsifier. Les praticiens débutants bâtissent leur carrière sur des méthodologies qui ne survivront pas à un test contrôlé. Et la discipline brûle la crédibilité dont elle aura besoin plus tard, lorsque la recherche traditionnelle se déplacera davantage et que les référenceurs seront censés s’asseoir dans des salles avec des équipes d’ingénieurs qui viennent de passer deux ans à observer le domaine avec confiance en décrivant mal la technologie.
La connaissance progresse en essayant de réfuter votre hypothèse, pas de la confirmer. GEO fait le contraire, mène des études destinées à valider ce qu’il vend déjà. Si les professionnels qui revendiquent cette expertise ne tentent même pas de se falsifier, qui pouvons-nous nous attendre à nous croire ?
L’absence, ce sont les données
Dépouillez le discours, et ce qui reste, c’est l’absence.
Un domaine technique sérieux voit un test contrôlé contredire ses prescriptions dominantes, et les prescriptions continuent de se vendre. À ce stade, se demander si les prescriptions sont erronées n’est plus la question intéressante. Cela a été répondu. La question la plus difficile est de savoir quel est le problème avec un domaine qui surveille et ne corrige pas.
Idem avec le dégradé. Lorsque les personnes qui ont construit les systèmes se protègent et que celles qui optimisent ces systèmes garantissent, se demander qui a raison cesse d’être intéressant. Les chercheurs et les constructeurs ont raison. Personne ayant travaillé sur l’attribution d’inférence ne pense le contraire. La question la plus difficile est de savoir pourquoi le domaine laisse les garanties circuler sans contestation.
La réponse honnête est que les incitations ne conduisent pas à une correction. La confiance se vend d’une manière que la prudence ne peut pas vendre. Le cadre déclarable remporte le budget ; l’évaluation sensée perd. Et le langage couvert ne convient pas à une page de tarification où une garantie s’intègre parfaitement.
Rien de tout cela n’a besoin de méchants. Le marché de l’attention récompense à chaque fois la confiance dans l’étalonnage.
Vous pouvez continuer à regarder le dégradé se dérouler dans le mauvais sens. Ou vous pouvez lire ce que c’est réellement : une industrie debout sur le mont Stupid, qui fait payer la vue.
Plus de ressources :
Cet article a été initialement publié sur The Inference.