Les modèles frontier ratent la plupart des tâches IT enterprise — voilà où ton budget part en fumée
IBM et Artificial Analysis publient le premier benchmark tiers crédible pour le travail IT agentique, et les taux de réussite sont une douche froide pour les budgets 2026.
Un benchmark tiers crédible vient de chiffrer l'écart entre les démos d'agents et les opérations IT en production : les modèles frontier passent sous les 50 % sur des tâches IT enterprise réelles. Pour les CTOs en train de finaliser leurs contrats de plateforme agentique ce trimestre, ce chiffre est le point de données le plus important qui manque dans ton deck vendeur. Notre lecture : les catégories de tâches du benchmark correspondent directement à un arbre de décision go/no-go pour savoir quels workflows IT on peut confier à un agent aujourd'hui.
Ce qui change — IBM et Artificial Analysis publient le premier benchmark IT agentique
ITBench-AA, publié conjointement par IBM Research et Artificial Analysis, est le premier benchmark documenté publiquement et conçu spécifiquement pour les tâches IT enterprise agentiques. Contrairement aux benchmarks de code ou de raisonnement existants, ITBench-AA évalue les modèles sur des opérations IT multi-étapes : des tâches qui demandent à un agent d'observer l'état d'un système, de planifier une séquence d'actions, de les exécuter dans des environnements réels ou simulés, et d'en vérifier le résultat — la même boucle que ton vendeur d'automatisation IT met en avant dans chaque démo.
Le résultat principal : les modèles frontier — y compris les meilleurs modèles des grands labs — passent sous les 50 % sur la suite de tâches du benchmark. Celui-ci couvre des catégories qui correspondent à des workflows IT réels : détection et triage d'incidents, gestion de configuration, vérification de conformité, et coordination multi-systèmes. Les performances varient de façon significative selon ces catégories — c'est ce que la plupart des analyses passeront sous silence. Un modèle qui réussit 60 % des tâches de vérification de conformité peut n'en réussir que 30 % sur la coordination multi-systèmes. Le chiffre agrégé sous les 50 % aplatit une distribution qui devrait orienter tes décisions de priorisation.
Le benchmark est reproductible et indépendant — ni IBM ni Artificial Analysis ne te vend le modèle évalué. Cette indépendance compte quand tu dois décider de faire confiance à un taux de réussite. La méthodologie et les résultats sont documentés dans le post ITBench-AA sur Hugging Face.
Pourquoi la ventilation par catégorie de tâches change le calcul de la responsabilité agentique
La plupart des pilotes d'agents IT enterprise échouent discrètement. Une équipe déploie un agent pour le triage de tickets Tier-1, il gère 70 % des cas correctement en staging, puis en production il commence à fermer des tickets qu'il ne devrait pas et à escalader ceux qu'il devrait résoudre — mais personne n'a construit de piste d'audit qui remonte le problème avant trois mois. Les résultats d'ITBench-AA expliquent le mécanisme : les échecs agentiques ne sont pas uniformément répartis. Ils se concentrent sur les tâches qui nécessitent de coordonner un état sur plusieurs systèmes, d'interpréter des signaux environnementaux ambigus, ou d'exécuter des actions irréversibles dans le bon ordre.
Cette distribution devrait remodeler la façon dont tu catégorises ton backlog d'automatisation IT. Les tâches sans état, réversibles, et limitées à un seul système — réinitialisations de mots de passe, extractions de logs, génération de rapports planifiés — appartiennent à un niveau de risque différent de celles qui touchent plusieurs systèmes, modifient un état, ou ont des dépendances en aval. La structure par catégories du benchmark te donne la base empirique pour tracer cette ligne. Si la démo de ton vendeur vit dans le compartiment sans état et réversible, le chiffre sous les 50 % ne s'applique pas directement. Si la démo implique une remédiation d'incident multi-systèmes, ce chiffre est conservateur.
La deuxième implication concerne les termes contractuels. Si tu signes un contrat de plateforme tarifé sur le volume de tâches agentiques ou sur le taux d'automatisation, et que les benchmarks internes du vendeur sont auto-déclarés, tu disposes maintenant d'un point de référence externe pour exiger des évaluations indépendantes comme condition contractuelle. C'est un levier de négociation qui n'existait pas il y a six mois.
Parle à Domani AI pour construire ça →
Le plan du lundi matin — passe ton backlog IT par un triage à deux axes
Avant ton prochain appel vendeur ou ta prochaine revue de feuille de route interne, classe tes cas d'usage d'agents IT prévus sur deux axes : complexité d'état (mono-système vs. multi-systèmes) et réversibilité (facilement annulable vs. difficile ou impossible à annuler). Tu obtiens quatre quadrants. Le seul où les modèles frontier actuels sont susceptibles d'offrir une fiabilité en qualité production sans échafaudage humain dans la boucle, c'est celui des tâches mono-système et réversibles.
Pour tout ce qui se trouve hors de ce quadrant, les résultats d'ITBench-AA suggèrent de prévoir a minima une étape de confirmation avant exécution — et pour les tâches multi-systèmes irréversibles, une validation humaine. Ce n'est pas une raison d'arrêter le programme ; c'est une raison de mettre en place l'échafaudage avant de signer le contrat à volume.
- Cette semaine : Récupère ta liste de cas d'usage IT et tag chaque item : mono-système ou multi-systèmes, réversible ou irréversible.
- Avant ton prochain appel vendeur : Demande les taux de réussite par catégorie de tâche, pas la précision agrégée. S'ils ne peuvent pas les fournir, traite l'agrégat comme la distribution la plus défavorable.
- Avant de signer : Ajoute une clause d'évaluation indépendante ou une revue de précision en production sur 60 jours à tout contrat de plateforme agentique dépassant un seuil significatif.
- En parallèle : Identifie un workflow mono-système et réversible — réinitialisations de mots de passe, diagnostics planifiés, agrégation de logs — et lance un pilote contenu avec une journalisation d'audit complète. Utilise-le comme baseline de benchmark interne avant d'élargir le périmètre.
Ce que ça coûte — et ce que l'ignorance coûte davantage
Ajouter des étapes de validation humaine à un workflow agentique augmente la charge opérationnelle. Si tu prévoyais d'automatiser 200 tâches IT mensuelles et que 40 % d'entre elles tombent dans le quadrant multi-systèmes ou irréversible, tu n'automatises pas 80 de ces tâches — tu crées un workflow d'approbation allégé pour elles. C'est un coût réel : temps ingénieur pour construire les étapes de validation, temps de traitement pour les reviewers, et un taux d'automatisation inférieur à ce que ton business case projetait. Planifie-le maintenant plutôt que de le découvrir en Q4 quand le contrat tourne déjà.
Le coût de ne pas faire ce triage est pire, et moins visible. Les erreurs agentiques en opérations IT se cumulent : une règle de pare-feu mal configurée, un ticket d'incident fermé à tort, un enregistrement de conformité qui reflète ce que l'agent a rapporté plutôt que ce qui s'est réellement passé. Le benchmark ITBench-AA documente que ces modes d'échec ne sont pas des cas limites — ils constituent le résultat médian sur les tâches multi-systèmes pour les modèles frontier d'aujourd'hui. Les vendeurs vont progresser, et nous anticipons une hausse des taux de réussite tout au long de 2026 à mesure que les modèles et les échafaudages mûrissent. Mais les contrats que tu signes ce trimestre régiront des déploiements en production qui tourneront pendant 12 à 18 mois. Construis l'échafaudage pour les capacités d'aujourd'hui, pas pour la feuille de route de l'année prochaine.
Vous avez un projet similaire en tête ? → Démarrons la conversation
Start the conversation →