Editorial · agents tools

La selezione del framework per agenti ha finalmente un benchmark citabile

L'Open Agent Leaderboard confronta i framework su task success rate e costo per task — e cambia il modo in cui si fa la shortlist per un build del 2026.

May 22, 2026· 5 min read· Domani AI

IBM Research e Hugging Face hanno pubblicato questo mese l'Open Agent Leaderboard: il primo benchmark pubblico che valuta i framework per agenti su task success rate e costo insieme, in modo comparabile. Per qualsiasi CTO che sta ancora scegliendo tra LangGraph, AutoGen, smolagents o un harness custom, il processo di selezione è cambiato. La risposta non può più essere "ci piaceva la documentazione" o "l'ultimo ingegnere lo conosceva già". L'implicazione scomoda è che i framework che il tuo team considerava equivalenti non lo sono — e le differenze contano a scala di produzione.

Cosa è cambiato — e cosa misura davvero il leaderboard

Il Open Agent Leaderboard, pubblicato da IBM Research in collaborazione con Hugging Face, valuta i framework per agenti open-source su un insieme standardizzato di task agentici. La metodologia di valutazione assegna a ogni framework un punteggio su task success rate (l'agente ha completato l'obiettivo?), accuratezza nel tool-calling (ha invocato gli strumenti giusti nell'ordine giusto?) e costo per task in USD, usando un backend model fisso — così il framework, non il modello sottostante, è la variabile sotto test.

Il leaderboard è progettato per essere model-agnostic all'interno dell'harness di valutazione. Due framework che girano sullo stesso modello base possono produrre success rate materialmente diversi a seconda di come strutturano i prompt, gestiscono lo stato e gestiscono i retry delle tool-call. La metrica del costo per task cattura il consumo di token sull'intero loop dell'agente, non su una singola chiamata di inference — ed è quel numero che si riflette davvero sulla tua fattura API in produzione.

La metodologia distingue tra configurazioni di task single-agent e multi-agent, e separa i task tool-heavy (operazioni su file, chiamate API, esecuzione di codice) da quelli reasoning-heavy (pianificazione multi-step, branching condizionale). Questi due assi corrispondono quasi direttamente alla divisione dei carichi di lavoro enterprise reali: pipeline di orchestrazione intensive versus catene di ragionamento in stile research.

Perché questo cambia i conti sulla scelta del framework

La maggior parte dei team sceglie un framework per agenti come sceglie un bundler JavaScript: basandosi sul momentum della community, su un advocate interno convinto, o su un tutorial capitato bene. Era una scelta difendibile nel 2024, quando i framework erano tutti acerbi e i benchmark non esistevano. Nel 2026, scegliere un framework è una decisione architetturale che dura anni. La logica degli agenti si accumula. Le strutture dei prompt si incorporano nel tooling. Migrare da un layer di orchestrazione a un altro dopo 12 mesi di produzione non è un progetto da weekend.

Il numero del costo per task è quello che i decision-maker sottovalutano di più. Un framework che costa il 40% in più per task a 10.000 task al mese è rumore statistico. A 500.000 task al mese — che è dove atterra un deployment interno di successo entro 18 mesi — diventa una voce di costo che emerge nella tua infrastructure review. Il leaderboard ti dà un modo per modellare quel numero prima di costruire, non dopo che sei già vincolato.

La seconda dimensione sottovalutata è l'accuratezza del tool-calling in condizioni di errore. La maggior parte delle demo dei framework mostra il percorso felice. La valutazione del leaderboard include task in cui gli strumenti restituiscono errori, risultati parziali o richiedono retry logic. Il success rate su quei task predice l'affidabilità in produzione molto meglio delle performance su demo pulite. Se il tuo workload dipende molto dagli strumenti — e la maggior parte dei workload enterprise per agenti lo fa — quel sotto-punteggio conta più del numero di accuratezza principale.

Parla con Domani AI di come costruirlo →

La mossa del lunedì mattina: mappa i tuoi requisiti sugli assi del leaderboard

Non iniziare leggendo il leaderboard completo. Inizia scrivendo tre vincoli del tuo build reale prima di guardare le classifiche:

Latency budget: qual è il tempo massimo accettabile di completamento del task end-to-end? I framework con più loop di retry e reflection ottengono punteggi migliori sull'accuratezza, ma aggiungono tempo di clock reale.
Tool surface: quanti strumenti distinti deve chiamare il tuo agente, e con quale frequenza quegli strumenti restituiscono risposte non-200? Pesa il sotto-punteggio di tool-calling accuracy di conseguenza.
Volume mensile di task a scala a 18 mesi: proietta in avanti, non da dove sei oggi. Usa quel numero per moltiplicare il delta di costo per task tra i tuoi due principali candidati.

Una volta che hai quei tre numeri, guarda i sotto-punteggi del leaderboard per la tua configurazione di task (single-agent vs. multi-agent, tool-heavy vs. reasoning-heavy). Seleziona i due framework con il punteggio più alto sui tuoi criteri ponderati. Poi esegui uno spike di 48 ore: prendi un task reale dal tuo backlog, implementalo in entrambi i framework e registra il consumo effettivo di token e il success rate sul tuo tooling. Il leaderboard ti dà il prior; lo spike ti dà l'aggiornamento di probabilità per il tuo stack specifico.

Se il tuo team non ha 48 ore per eseguire quello spike senza togliere qualcuno da un impegno di delivery, è già un segnale: non sei staffato per prendere questa decisione architetturale in sicurezza senza un supporto esterno.

Quanto costa agire ora rispetto ad aspettare che il leaderboard maturi

Agire ora significa impegnarsi su un framework prima che il leaderboard abbia una copertura completa di ogni framework che il tuo team potrebbe considerare. L'Open Agent Leaderboard è live ma non esaustivo — se il tuo framework preferito non c'è ancora, sei di nuovo con informazioni parziali. Il compromis onesto: puoi aspettare 60-90 giorni per una copertura più ampia, ma se hai un build che inizia nel Q3, quel ritardo comprime la tua finestra architetturale.

Il rischio maggiore è l'opposto: aspettare indefinitamente un benchmark perfetto mentre si continua a lasciare che ogni ingegnere scelga il framework che conosce. Questo produce un agent stack eterogeneo, costoso da operare e quasi impossibile da auditare. Una selezione standardizzata del framework — anche imperfetta, fatta con i dati migliori disponibili — costa meno nell'arco di 24 mesi rispetto a tre framework che girano in parallelo perché nessuno ha preso una decisione.

Il leaderboard non prende la decisione al posto tuo. Elimina la scusa per non prenderla.

Parla con Domani AI di come costruirlo →

Source: https://huggingface.co/blog/ibm-research/open-agent-leaderboard

Hai un build simile in mente? → Inizia la conversazione

Start the conversation →

← Back to Insights