La guerre des agents Runtime a commencé cette semaine

Le runtime de l’agent est la nouvelle couche du navigateur, et votre site Web sera évalué par rapport au runtime, et non par rapport à un modèle individuel.

C’est un changement que les professionnels du Web n’ont pas encore fait. La conversation s’articule toujours autour des modèles. Quel modèle écrit mieux ? Lequel cite le plus précisément ? Quelle API est la moins chère ce mois-ci ? La conversation sur les modèles est bruyante car de nouveaux modèles sont expédiés toutes les quelques semaines et chaque sortie est en salles.

L’histoire intéressante est celle qui se trouve en dessous. La fondation est en train d’être reconstruite. Cette semaine, il était impossible de l’ignorer.

La pile d’exécution expédiée en avril

Le 15 avril, Cloudflare a lancé Project Think, un nouveau SDK d’agents construit autour d’une exécution durable avec récupération après incident et points de contrôle, des sous-agents qui s’exécutent en tant qu’enfants isolés, des sessions persistantes avec des messages structurés en arborescence et une exécution de code en bac à sable s’exécutant sur Dynamic Workers. Quelques heures après le même jour, OpenAI a livré la prochaine évolution de son SDK Agents avec une exécution sandbox native et un harnais natif de modèle. Deux des plus grands opérateurs d’infrastructures sur le Web ont fourni des réponses concurrentes à la même question, la question étant la suivante : comment un agent d’IA de longue durée fonctionne-t-il réellement en production ?

Puis, le 16 avril, Cloudflare a ajouté cinq autres éléments. AI Platform : une couche d’inférence indépendante du fournisseur qui achemine les modèles pour les agents. AI Search : un index vectoriel et un pipeline de segmentation livrés en tant que produit géré spécifiquement pour la récupération d’agent, en concurrence avec Pinecone et Algolia dans la couche RAG côté agent plutôt qu’avec le mode Google AI. Service de messagerie en version bêta publique, conçu pour que les agents puissent utiliser l’interface la plus universelle au monde comme canal. PlanetScale Postgres et MySQL dans Workers. Et la base technique pour héberger de très grands LLM open source comme Kimi K2.5 directement sur le réseau de Cloudflare.

Sundar Pichai a décrit le même changement une semaine plus tôt. Dans le podcast Cheeky Pint du 7 avril avec le co-fondateur de Stripe, John Collison, il a qualifié Search lui-même de « gestionnaire d’agents » : « Une grande partie de ce qui ne sont que des requêtes de recherche d’informations seront agents dans Search. Vous effectuerez des tâches. Vous aurez de nombreux threads en cours d’exécution. » Le nombre de threads par requête constitue une description d’exécution de la recherche. Le PDG de Google pointe du doigt le même substrat Cloudflare et OpenAI livré cette semaine.

Si OpenClaw était le web agent pour les consommateurs (une démo jouable, un prototype intéressant, quelque chose à montrer), c’est bien le web agent pour les adultes. Durable. En bac à sable. Vérifiable. Le type d’infrastructure sur laquelle vous dirigeriez réellement une entreprise.

Le modèle qui prévaut dans tout cela est une seule chose : le temps d’exécution. Pas le modèle. Pas l’application de chat grand public. Pas la diapositive principale. Le runtime est la couche où les agents sont lancés, conservés pendant des heures et des jours, compte tenu de l’accès au système de fichiers, de l’accès au réseau et de la mémoire. Le runtime est la couche qui décide si la session d’un agent survit à un crash, si ses sous-agents peuvent être raisonnés, si l’exécution de son code est contenue.

La mauvaise question et la nouvelle

Les professionnels du Web ont passé les 18 derniers mois à se poser la mauvaise question. La question était : pour quel modèle d’IA devrions-nous optimiser ? ChatGPT ou Claude ou Gemini ou Perplexité. Quelles citations comptent le plus ? À qui devrions-nous laisser passer le robot ? Cette conversation avait du sens lorsque les modèles lisaient directement votre site Web.

Ce n’est plus le cas. Le modèle lit ce que le runtime lui donne. Le moteur d’exécution a récupéré votre page. Le runtime l’a analysé. Le runtime a exécuté (ou n’a pas exécuté) votre JavaScript. Le runtime a résolu vos données structurées. Authentification négociée au moment de l’exécution. Au moment où le modèle voit quelque chose sur votre site Web, il en voit l’interprétation du moteur d’exécution.

La nouvelle question, si vous prenez cette semaine au sérieux, est de savoir à quel environnement d’exécution d’agent votre site Web est lisible. Trois choses à tester avant la semaine prochaine :

  1. Vos points de terminaison les plus importants renvoient-ils des réponses structurées lisibles par machine, ou ne s’affichent-ils correctement que dans une session de navigateur complète ?
  2. Votre authentification est-elle limitée de manière à ce qu’un agent agissant au nom d’un utilisateur puisse tenir une session sur plusieurs appels, ou prend-elle uniquement en charge les connexions humaines ponctuelles ?
  3. Vos données structurées signifient-elles toujours la même chose si un runtime qui n’a pas exécuté votre JavaScript essayait de le lire ?

Ce sont des questions de lisibilité à l’exécution. Le modèle n’a rien à voir avec eux. Le runtime décide si votre réponse se trouve même dans la fenêtre contextuelle du modèle, et le modèle sélectionne ce que le runtime lui transmet.

La plomberie du Web est en train d’être reconstruite. Chaque modèle des deux prochaines années verra votre site Web via l’un de ces environnements d’exécution, et non directement. Le travail de votre site Web, à partir de maintenant, est d’être lisible au moment de l’exécution.

La conversation modèle se poursuivra sur les scènes de la conférence et dans les diapositives principales. La conversation d’exécution se déroule dans les journaux de modifications des produits des sociétés d’infrastructure. Les entreprises qui expédient le moteur d’exécution décideront quels sites Web seront atteints par la recherche et le commerce par l’IA. Arrêtez de demander quel modèle. Commencez à demander quel runtime.

Plus de ressources :


Cet article a été initialement publié sur No Hacks.