Editorial · agents tools

Frontier-Modelle scheitern bei den meisten Enterprise-IT-Agent-Aufgaben — hier verbrennt dein Budget

IBM und Artificial Analysis haben das erste glaubwürdige Drittanbieter-Benchmark für agentische IT-Arbeit veröffentlicht — und die Erfolgsraten sind ein kalter Schauer für Agent-Budgets 2026.

May 30, 2026· 5 min read· Domani AI

Ein glaubwürdiges Drittanbieter-Benchmark hat gerade eine Zahl auf die Lücke zwischen Agent-Demos und echtem IT-Betrieb gesetzt: Frontier-Modelle erzielen bei realen Enterprise-IT-Aufgaben weniger als 50 % Erfolgsrate. Für CTOs, die in diesem Quartal Agent-Plattformverträge abschließen, ist das der wichtigste Datenpunkt, den du nicht in deinen Vendor-Unterlagen findest. Unsere Einschätzung: Die Aufgabenkategorien des Benchmarks lassen sich direkt auf eine Go/No-Go-Entscheidungsmatrix abbilden — welche IT-Workflows man heute bedenkenlos an einen Agent übergeben kann, und welche nicht.

Was sich verändert hat — IBM und Artificial Analysis veröffentlichen das erste agentische IT-Benchmark

ITBench-AA, gemeinsam von IBM Research und Artificial Analysis veröffentlicht, ist das erste öffentlich dokumentierte Benchmark, das speziell für agentische Enterprise-IT-Aufgaben entwickelt wurde. Anders als frühere Coding- oder Reasoning-Benchmarks bewertet ITBench-AA Modelle bei mehrstufigen IT-Operations-Aufgaben: Aufgaben, bei denen ein Agent den Systemzustand beobachten, eine Aktionssequenz planen, diese gegen reale oder simulierte Umgebungen ausführen und das Ergebnis verifizieren muss — exakt derselbe Loop, den dein IT-Automation-Vendor in jeder Demo verspricht.

Das Hauptergebnis: Frontier-Modelle — einschließlich der führenden Modelle der großen Labs — erreichen beim Benchmark-Aufgabenset weniger als 50 %. Das Benchmark umfasst Kategorien, die realen IT-Workflows entsprechen: Incident Detection und Triage, Configuration Management, Compliance-Prüfung und Multi-System-Koordination. Die Performance unterscheidet sich deutlich zwischen diesen Kategorien — genau das wird die meisten Berichte übersehen. Ein Modell, das 60 % der Compliance-Aufgaben besteht, schafft vielleicht weniger als 30 % bei Multi-System-Koordinationsaufgaben. Die aggregierte Sub-50-%-Zahl glättet eine Verteilung, die eigentlich deine Priorisierungsentscheidungen steuern sollte.

Das Benchmark ist reproduzierbar und von Dritter Seite — weder IBM noch Artificial Analysis verkauft dir das evaluierte Modell. Diese Unabhängigkeit zählt, wenn du entscheidest, ob du einer Erfolgsrate vertrauen kannst. Primäre Methodik und Ergebnisse sind im ITBench-AA Hugging Face Post dokumentiert.

Warum die Aufgabenkategorie-Aufschlüsselung die Mathematik der Agent-Verantwortung verändert

Die meisten Enterprise-IT-Agent-Piloten scheitern leise. Ein Team stellt einen Agent für Tier-1-Ticket-Triage bereit, er löst 70 % der Fälle im Staging ausreichend, und dann beginnt er in der Produktion, Tickets zu schließen, die er nicht schließen sollte, und solche eskalieren, die er selbst lösen sollte — aber niemand hat einen Audit-Trail aufgebaut, der das Muster sichtbar macht, bis drei Monate vergangen sind. Die ITBench-AA-Ergebnisse erklären den Mechanismus: Agentisches Versagen ist nicht gleichmäßig verteilt. Es konzentriert sich auf Aufgaben, die Zustand über mehr als ein System hinweg koordinieren, mehrdeutige Umgebungssignale interpretieren oder irreversible Aktionen in der richtigen Reihenfolge ausführen müssen.

Diese Verteilung sollte die Art ändern, wie du dein IT-Automation-Backlog kategorisierst. Aufgaben, die zustandslos, reversibel und auf ein einzelnes System beschränkt sind — Passwort-Resets, Log-Pulls, geplante Report-Generierung — gehören in eine andere Risikostufe als Aufgaben, die mehrere Systeme berühren, Zustand mutieren oder nachgelagerte Abhängigkeiten haben. Die Kategorienstruktur des Benchmarks gibt dir die empirische Grundlage, diese Linie zu ziehen. Wenn die Agent-Demo deines Vendors im zustandslosen/reversiblen Bereich lebt, gilt die Sub-50-%-Schlagzeile nicht direkt. Wenn die Demo Multi-System-Incident-Remediation umfasst, ist die Schlagzeile eher konservativ.

Die zweite Implikation betrifft Vertragskonditionen. Wenn du einen Plattformvertrag unterzeichnest, der nach Agent-Task-Volumen oder Automatisierungsrate abrechnet, und die internen Benchmarks des Vendors selbst berichtet sind, hast du jetzt einen externen Referenzpunkt, um unabhängige Evals als Vertragsbedingung anzufordern. Das ist ein Verhandlungshebel, den es vor sechs Monaten nicht gab.

Sprich mit Domani AI darüber, wie wir das aufbauen →

Der Montag-Morgen-Schritt — lauf dein IT-Automation-Backlog durch eine Zwei-Achsen-Triage

Bevor dein nächster Vendor-Call oder ein internes Roadmap-Review ansteht: Sortiere deine geplanten IT-Agent-Use-Cases entlang zwei Achsen: Zustandskomplexität (Single-System vs. Multi-System) und Reversibilität (leicht rückgängig zu machen vs. schwer oder unmöglich). Das ergibt vier Quadranten. Der einzige Quadrant, in dem aktuelle Frontier-Modelle produktionstaugliche Zuverlässigkeit ohne ein Human-in-the-Loop-Scaffold liefern können, ist Single-System plus reversibel.

Für alles außerhalb dieses Quadranten legen die ITBench-AA-Ergebnisse nahe, dass du mindestens einen Bestätigungsschritt vor der Ausführung einplanen solltest — und für Multi-System-irreversible Aufgaben ein menschliches Freigabe-Gate. Das ist kein Grund, das Programm zu stoppen; es ist ein Grund, das Scaffold aufzubauen, bevor du den Volumenvertrag unterzeichnest.

Diese Woche: Zieh deine IT-Automation-Use-Case-Liste und tagge jedes Item: Single-System oder Multi-System, reversibel oder irreversibel.
Vor dem nächsten Vendor-Call: Frag nach Erfolgsraten auf Aufgabenkategorie-Ebene, nicht nach aggregierter Genauigkeit. Wenn der Vendor diese nicht liefern kann, behandle das Aggregat als Worst-Case-Verteilung.
Vor der Unterzeichnung: Füge jedem Agent-Plattformvertrag über einer relevanten Schwelle eine Klausel für unabhängige Evals oder ein 60-Tage-Produktionsgenauigkeits-Review hinzu.
Parallel dazu: Identifiziere einen Single-System-reversiblen Workflow — Passwort-Resets, geplante Diagnosen, Log-Aggregation — und führe einen abgegrenzten Pilot mit vollständigem Audit-Logging durch. Nutze ihn als internen Benchmark-Baseline, bevor du den Scope erweiterst.

Was das kostet — und was Uninformiertheit noch mehr kostet

Human-in-the-Loop-Gates in einen Agent-Workflow einzubauen erhöht den operativen Aufwand. Wenn du geplant hast, 200 monatliche IT-Aufgaben zu automatisieren, und 40 % davon in den Multi-System- oder irreversiblen Quadranten fallen, automatisierst du nicht 80 dieser Aufgaben — du baust stattdessen einen schlankeren Freigabe-Workflow für sie. Das ist ein realer Kostenfaktor: Engineer-Zeit für den Aufbau der Gates, Prozesszeit für Reviewer und eine niedrigere Automatisierungsrate als dein Business Case projiziert hat. Plan das jetzt ein, statt es in Q4 zu entdecken, wenn der Vertrag bereits läuft.

Die Kosten dieser Triage zu überspringen sind schlimmer — und weniger sichtbar. Agent-Fehler in IT-Operations kumulieren sich: eine falsch konfigurierte Firewall-Regel, ein fälschlicherweise geschlossenes Incident-Ticket, ein Compliance-Eintrag, der widerspiegelt, was der Agent gemeldet hat, nicht was tatsächlich passiert ist. Das ITBench-AA-Benchmark dokumentiert, dass diese Fehlermodi keine Ausreißer sind — sie sind das mediane Ergebnis bei Multi-System-Aufgaben für heutige Frontier-Modelle. Vendors werden sich verbessern, und wir erwarten, dass die Erfolgsraten bis 2026 steigen, wenn sowohl Modelle als auch Scaffolding reifen. Aber die Verträge, die du in diesem Quartal unterzeichnest, regeln Produktions-Deployments, die 12 bis 18 Monate laufen. Baue das Scaffold für die heutige Leistungsfähigkeit — nicht für die Roadmap nächstes Jahr.

Sprich mit Domani AI darüber, wie wir das aufbauen →

Source: https://huggingface.co/blog/ibm-research/itbench-aa

Hast du ein ähnliches Vorhaben? → Starte das Gespräch

Start the conversation →

← Back to Insights