Editorial · foundation models

GPT-5.5 ha appena cambiato i calcoli del tuo model routing

Il nuovo flagship di OpenAI sposta la curva prezzo/qualità sotto ogni prompt di produzione che hai scritto per GPT-4o o o3.

May 8, 2026· 5 min read· Domani AI

OpenAI ha rilasciato GPT-5.5 questa settimana, presentandolo come il modello più capace di sempre — più veloce, più solido su coding e ricerca, progettato per operare su più tool. Per la maggior parte dei CTO, l'istinto è trattare questo come una questione di upgrade. Non lo è. È un segnale per rimettere in discussione ogni decisione di routing presa quando GPT-4o o o3 definivano il baseline prezzo/qualità — perché quel baseline non vale più.

Cosa è cambiato con GPT-5.5

OpenAI descrive GPT-5.5 come il modello più intelligente mai rilasciato, con guadagni significativi su task complessi e multi-step: coding, sintesi di ricerca e analisi dati con integrazioni di tool. L'enfasi sul tool use è rilevante — non è solo un miglioramento sui benchmark con prompt isolati; è un modello posizionato per performare meglio quando opera dentro un loop agentico con retrieval, esecuzione di codice o API esterne.

Il rilascio segue una cadenza compressa. GPT-4o è arrivato circa 12 mesi fa; GPT-4.5 è uscito all'inizio di quest'anno; GPT-5.5 è già qui. Questo ritmo segnala che OpenAI sta girando un ciclo di upgrade continuo delle capacità, non un rilascio generazionale da 12–18 mesi. Chi ha baked decisioni di routing nell'infrastruttura e non ha rifatto i benchmark da GPT-4o deve trattare quel gap come debito tecnico che sta maturando attivamente.

I dettagli sui prezzi al momento della pubblicazione sono disponibili nella documentazione delle API di OpenAI, ma lo schema dei rilasci precedenti si ripete: le capacità flagship arrivano a costo token premium, mentre i flagship precedenti vengono riprezzati nel mid-tier. È proprio in quel riprezzamento che il routing math diventa interessante.

Perché questo azzera i calcoli sul tuo stack attuale

La maggior parte degli stack AI in produzione non gira su un singolo modello — gira su un layer di routing, anche se in modo informale. Un task di classificazione va a un modello più veloce e più economico. Un riassunto verso il cliente va a qualcosa di mid-tier. Una revisione contrattuale o una generazione di codice complessa va al flagship. Quel tiering aveva senso quando il gap di capacità tra GPT-4o e un modello più piccolo giustificava il delta di costo. GPT-5.5 sposta due cose contemporaneamente: quello che il flagship sa fare, e quanto costa il flagship precedente.

La parte che la maggior parte delle analisi si perde è il rischio di regressione a livello di prompt. Prompt ottimizzati per il comportamento di GPT-4o — la sua verbosità, la tendenza a coprirsi le spalle, il modo in cui gestisce istruzioni ambigue — possono produrre output diversi su GPT-5.5, anche su task dove la qualità nominalmente migliora. Se le tue eval sono state scritte contro gli output di GPT-4o, un BLEU score più alto o un rating migliore da LLM-as-judge non significa automaticamente che la tua applicazione downstream si comporti come previsto. Devi rieseguire la tua eval suite su input di produzione rappresentativi prima di instradare traffico live.

C'è anche un effetto soglia sui workload agentici. Se hai agent che attualmente chiamano GPT-4o per le decisioni di tool-calling e fanno fallback su un modello più economico per la sintesi, i guadagni riportati di GPT-5.5 sul tool use multi-step potrebbero permetterti di consolidare — meno hop, latency più bassa, potenzialmente costo totale più basso anche a un prezzo per token più alto. È quell'arbitraggio che vale la pena modellare questa settimana.

Parla con Domani AI di come costruirlo →

Cosa fare prima di venerdì

Le 4 ore di maggior valore che puoi spendere questa settimana sono un audit strutturato dei prompt su GPT-5.5 sui tuoi 10 template di prompt più critici in produzione. Non un'impressione soggettiva — una eval con punteggio usando la stessa rubrica che il tuo team usa già per la qualità degli output. L'obiettivo è una matrice di decisione per il routing: task dove GPT-5.5 supera chiaramente il tuo modello attuale a costo accettabile, task dove è equivalente (tieni la linea, risparmia i token), e task dove il cambiamento di comportamento crea rischi di regressione da affrontare prima di qualsiasi migrazione.

Se non hai una eval suite formale, questa è la vera mossa del lunedì — non l'upgrade del modello. Un workload AI in produzione senza eval con punteggio è come volare senza strumenti. GPT-5.5 è un buon forcing function per rimediare, perché il prossimo flagship arriverà prima della fine dell'anno e il problema si accumula.

Passi concreti per la settimana:

Estrai i tuoi top 10 template di prompt dai log di produzione per volume di chiamate o criticità di business — non per intuizione su cosa conta
Esegui ciascuno sul tuo modello attuale e su GPT-5.5 con input identici; assegna un punteggio agli output con la tua rubrica esistente (o costruisci una rubrica a 3 punti in 30 minuti se non ne hai una)
Segnala qualsiasi output dove GPT-5.5 cambia la struttura o il formato in modi da cui dipende il tuo parsing downstream — questi sono i tuoi rischi di regressione
Modella il delta di costo token per ogni workload al volume di traffico attuale; identifica i 2–3 workload dove consolidare su GPT-5.5 migliora sia la qualità che l'economia
Prendi una decisione di routing — non cercare di migrare tutto; dimostra il processo su un workload prima

Quanto costa e dove si risparmia

Il compromis onesto: migrare a un nuovo modello flagship a metà ciclo costa tempo di engineering che probabilmente non hai nel budget — da 2 a 4 giorni per un passaggio disciplinato di eval-e-routing su uno stack di medie dimensioni, di più se il tuo prompt layer è intrecciato con la logica applicativa invece di essere astratto in modo pulito. Se rimandi di 6 settimane, perdi quella finestra per catturare l'arbitraggio di costo dal riprezzamento di GPT-4o nel mid-tier, e i tuoi agent continuano a girare su un modello che ora è una generazione indietro sulle performance di tool-calling.

Il risparmio è sui workload agentici in modo specifico. Se GPT-5.5 riduce il numero di chiamate al modello per task dell'agent — meno fallback, meno loop di chiarimento — il costo per task può scendere anche se il tasso per token sale. Quel calcolo è workload-specifico e non lo saprai finché non esegui l'audit. Il rischio di non farlo è che un competitor che lo fa avrà costi di inference più bassi e tempi di risposta più veloci sulla stessa classe di task entro il Q3.

Parla con Domani AI di come costruirlo →

Source: https://openai.com/index/introducing-gpt-5-5

Hai un progetto simile in mente? → Inizia la conversazione

Start the conversation →

← Back to Insights