Editorial · agents tools

I modelli frontier falliscono la maggior parte dei task IT aziendali — ecco dove bruci il budget

IBM e Artificial Analysis hanno pubblicato il primo benchmark terzo credibile per il lavoro IT agentivo, e i pass rate sono una doccia fredda per i budget agent 2026.

May 30, 2026· 6 min read· Domani AI

Un benchmark terzo credibile ha appena messo un numero sul divario tra le demo degli agent e le operazioni IT in produzione: i modelli frontier segnano meno del 50% sui task IT aziendali reali. Per i CTO che stanno finalizzando i contratti di piattaforma agent questo trimestre, quel numero è il dato più importante che non trovi nel deck del vendor. La nostra lettura è che le categorie di task del benchmark mappano direttamente su un albero decisionale go/no-go per capire quali workflow IT è sicuro affidare a un agent oggi.

Cosa è cambiato — IBM e Artificial Analysis hanno pubblicato il primo benchmark IT agentivo

ITBench-AA, rilasciato congiuntamente da IBM Research e Artificial Analysis, è il primo benchmark pubblicamente documentato progettato specificamente per task IT aziendali agentivi. A differenza dei benchmark precedenti su coding o ragionamento, ITBench-AA valuta i modelli su operazioni IT multi-step: task che richiedono a un agent di osservare lo stato del sistema, pianificare una sequenza di azioni, eseguirle su ambienti reali o simulati e verificare il risultato — lo stesso loop che il tuo vendor di automazione IT promette in ogni demo.

Il risultato principale è che i modelli frontier — inclusi i modelli di punta dei principali lab — segnano meno del 50% sulla suite di task del benchmark. Il benchmark copre categorie che corrispondono a workflow IT reali: rilevamento e triage degli incident, configuration management, compliance checking e coordinamento multi-sistema. Le performance variano in modo significativo tra queste categorie, ed è proprio questo l'aspetto che la maggior parte delle analisi ignorerà. Un modello che supera il 60% dei task di compliance checking potrebbe superarne meno del 30% di quelli di coordinamento multi-sistema. Il dato aggregato sotto il 50% appiattisce una distribuzione che invece dovrebbe guidare le tue decisioni di prioritizzazione.

Il benchmark è riproducibile e terzo — né IBM né Artificial Analysis ti stanno vendendo il modello che valutano. Questa indipendenza conta quando devi decidere se fidarti di un pass rate. Metodologia e risultati sono documentati nel post ITBench-AA su Hugging Face.

Perché la suddivisione per categoria di task cambia i conti sulla ownership degli agent

La maggior parte dei pilot di agent IT aziendali fallisce in silenzio. Un team lancia un agent per il triage dei ticket Tier-1, in staging gestisce il 70% dei casi in modo accettabile, poi in produzione comincia a chiudere ticket che non dovrebbe e a escalare quelli che dovrebbe risolvere — ma nessuno ha costruito un audit trail che faccia emergere il pattern fino a tre mesi dopo. I risultati di ITBench-AA spiegano il meccanismo: il fallimento agentivo non è distribuito uniformemente. Si concentra nei task che richiedono di coordinare lo stato su più di un sistema, interpretare segnali ambientali ambigui o eseguire azioni irreversibili nella sequenza corretta.

Questa distribuzione dovrebbe ridefinire il modo in cui categorizzi il tuo backlog di automazione IT. I task stateless, reversibili e circoscritti a un singolo sistema — reset delle password, pull dei log, generazione di report schedulati — si trovano in un tier di rischio diverso rispetto ai task che toccano più sistemi, mutano lo stato o hanno dipendenze downstream. La struttura delle categorie del benchmark ti dà la base empirica per tracciare quella linea. Se la demo del tuo vendor vive nel bucket stateless/reversibile, il dato aggregato sotto il 50% non si applica direttamente. Se la demo riguarda la remediation di incident multi-sistema, quel dato è conservativo.

La seconda implicazione riguarda i termini contrattuali. Se stai firmando un contratto di piattaforma che prezza sul volume di task agentivi o sul tasso di automazione, e i benchmark interni del vendor sono self-reported, ora hai un punto di riferimento esterno per richiedere eval indipendenti come condizione contrattuale. È una leva negoziale che sei mesi fa non esisteva.

Parla con Domani AI di come costruirlo →

La mossa del lunedì mattina — passa il tuo backlog di automazione IT attraverso un triage a due assi

Prima della prossima chiamata con il vendor o della prossima review della roadmap interna, ordina i tuoi use case IT agentivi pianificati su due assi: complessità dello stato (single-system vs. multi-system) e reversibilità (facilmente annullabile vs. difficile o impossibile da annullare). Ottieni quattro quadranti. L'unico quadrante in cui i modelli frontier attuali possono ragionevolmente garantire affidabilità in produzione senza uno scaffold human-in-the-loop è quello dei task single-system e reversibili.

Per tutto ciò che sta fuori da quel quadrante, i risultati di ITBench-AA suggeriscono di prevedere come minimo uno step di conferma prima dell'esecuzione — e per i task multi-system e irreversibili, un gate di approvazione umana. Non è un motivo per fermare il programma; è un motivo per costruire lo scaffold prima di firmare il contratto a volume.

Questa settimana: Recupera la tua lista di use case di automazione IT e tagga ogni voce: single-system o multi-system, reversibile o irreversibile.
Prima della prossima chiamata con il vendor: Chiedi i pass rate a livello di categoria di task, non l'accuracy aggregata. Se non riescono a fornirli, tratta l'aggregato come la distribuzione peggiore.
Prima di firmare: Aggiungi una clausola di eval indipendente o una review dell'accuracy in produzione a 60 giorni a qualsiasi contratto di piattaforma agent sopra una soglia materiale.
In parallelo: Identifica un workflow single-system e reversibile — reset delle password, diagnostica schedulata, aggregazione di log — e lancia un pilot circoscritto con audit logging completo. Usalo come baseline di benchmark interno prima di espandere lo scope.

Quanto costa — e quanto costa di più restare disinformati

Aggiungere gate human-in-the-loop a un workflow agentivo aumenta l'overhead operativo. Se hai pianificato di automatizzare 200 task IT mensili e il 40% di questi ricade nel quadrante multi-system o irreversibile, non stai automatizzando 80 di quei task — stai creando un workflow di approvazione più leggero per loro. È un costo reale: tempo ingegneristico per costruire i gate, tempo di processo per i reviewer e un tasso di automazione inferiore a quello proiettato nel tuo business case. Pianificalo ora invece di scoprirlo in Q4 quando il contratto è già in corsa.

Il costo di non fare questo triage è peggiore e meno visibile. Gli errori degli agent nelle operazioni IT si accumulano: una regola firewall mal configurata, un ticket di incident chiuso erroneamente, un record di compliance che riflette ciò che l'agent ha riportato invece di quello che è successo davvero. Il benchmark ITBench-AA documenta che questi failure mode non sono casi limite — sono il risultato mediano sui task multi-sistema per i modelli frontier di oggi. I vendor migliorano, e ci aspettiamo che i pass rate crescano nel corso del 2026 man mano che sia i modelli che lo scaffolding maturano. Ma i contratti che firmi questo trimestre governeranno deployment in produzione che girano per 12-18 mesi. Costruisci lo scaffold per le capacità di oggi, non per la roadmap del prossimo anno.

Parla con Domani AI di come costruirlo →

Source: https://huggingface.co/blog/ibm-research/itbench-aa

Hai un progetto simile in mente? → Inizia la conversazione

Start the conversation →

← Back to Insights