Editorial · inference infra

OpenAI su AWS ha eliminato il tuo ultimo argomento per rimandare

GPT, Codex e Managed Agents su AWS: ogni CTO AWS-native deve rivedere la propria strategia di inference routing questa settimana.

May 1, 2026· 5 min read· Domani AI

I modelli OpenAI, Codex e i Managed Agents sono ora disponibili direttamente su AWS. Per la maggior parte dei team di ingegneria tra 50 e 500 FTE che hanno costruito la propria postura sui dati attorno ad AWS e hanno tranquillamente rimandato l'adozione di OpenAI, il motivo per aspettare non esiste più. La domanda vera non è più se puoi usare OpenAI nel tuo ambiente AWS — è se le decisioni di routing prese negli ultimi 18 mesi sono ancora quelle giuste.

Cosa è cambiato

Da fine aprile 2026, i modelli OpenAI GPT, Codex e i Managed Agents sono disponibili su AWS, e le aziende possono distribuire e usare le funzionalità OpenAI all'interno dei loro ambienti AWS esistenti. I team possono chiamare i modelli OpenAI senza che i dati escano dal perimetro AWS, integrandosi con le policy IAM, le configurazioni VPC, le pipeline di logging e i controlli di compliance già in uso.

Codex — il sistema di code-generation e software-agent di OpenAI — è incluso nel lancio, non solo i modelli chat. I Managed Agents, il layer di orchestrazione hosted di OpenAI per workflow agentici multi-step, arrivano su AWS contemporaneamente. Tre livelli di capability distinti in un colpo solo: foundation model, un sistema specializzato nel codice e un runtime di orchestrazione.

Questo segue la disponibilità precedente di OpenAI su Azure e via API diretta, che metteva i team AWS-native davanti a una scelta architetturale scomoda: spostare i dati su un altro cloud per accedere al modello, accettare i costi di egress cross-cloud, oppure usare i modelli nativi di Bedrock e rinunciare a OpenAI del tutto. Quel compromesso a tre vie è ora risolto sul lato infrastrutturale.

Perché il tuo contratto Bedrock è ora una questione di routing, non un default

La maggior parte dei team AWS-native tra 50 e 500 FTE non ha scelto attivamente gli endpoint Claude, Titan o Llama di Bedrock. Li ha adottati per default perché erano già in AWS e OpenAI non c'era. Quella scelta passiva è ora una scelta che devi possedere consapevolmente, perché il vincolo che la rendeva passiva non esiste più.

Questo conta architetturalmente in tre modi specifici. Primo: se hai committed spend su Bedrock — capacità riservata, enterprise agreement o throughput tier — devi quantificare se aggiungere endpoint OpenAI tramite AWS crea spesa ridondante o copertura complementare. Secondo: se hai costruito workflow agentici sul framework nativo di Bedrock, i Managed Agents di OpenAI rappresentano un runtime di orchestrazione concorrente all'interno dello stesso cloud. Gestire due layer di orchestrazione non è sbagliato in sé, ma deve essere deliberato. Terzo: la disponibilità di Codex cambia i conti specificamente per i team che fanno software development automation — Bedrock non ha un equivalente first-party di code-agent allo stesso livello di capability, il che significa che i team che rimandavano pipeline di sviluppo assistito dall'AI per ragioni di data residency hanno ora un'occasione concreta per sbloccarsi questa settimana.

Il rischio più sottile è la deriva della postura multi-cloud. I team AWS-native che hanno endpoint Azure OpenAI Service per casi d'uso specifici — spesso aggiunti da singoli team senza revisione architetturale centrale — hanno ora un'opportunità di consolidamento che prima non esisteva. Se non fai un inventario adesso, ti ritroverai con 3 percorsi di accesso a OpenAI (API diretta, Azure OpenAI Service, OpenAI su AWS) che girano in parallelo, con modelli di autenticazione diversi, configurazioni di logging diverse e cost center diversi. Il debito di audit si accumula velocemente.

La mossa del lunedì mattina

L'azione di questa settimana è un inventario e una decisione di routing, non una migrazione. Non iniziare a spostare workload finché non sai da dove li stai spostando e perché.

Fai un audit della tua superficie OpenAI attuale. Elenca ogni applicazione, pipeline e prototipo che tocca le API di OpenAI. Annota se passa in modo diretto, tramite Azure, o non usa OpenAI affatto. Questa lista dovrebbe richiedere a un ingegnere mezza giornata.
Mappa i tuoi impegni su Bedrock. Estrai l'utilizzo attivo dei modelli Bedrock e gli eventuali enterprise agreement. Identifica quali famiglie di modelli sono load-bearing e quali sono esplorative.
Individua i workload rilevanti per Codex. Se hai casi d'uso di software development automation — PR review, generazione di test, pipeline di refactoring — bloccati per ragioni di data residency, questi sono candidati immediati da valutare con la nuova disponibilità.
Definisci una policy di routing prima che i team si auto-instradino. Il modo più rapido per creare debito di governance è lasciare che i singoli team scoprano OpenAI su AWS in modo indipendente e inizino a collegarlo ad hoc. Una policy interna di routing di una pagina — quale famiglia di modelli va dove e in quali condizioni — previene tre mesi di cleanup.
Decidi sui Managed Agents in modo deliberato. Se stai già usando un layer di orchestrazione (LangGraph, Bedrock Agents, un framework custom), aggiungere i Managed Agents significa un secondo runtime. Valuta se il gap di capability giustifica la complessità operativa prima che qualsiasi team ci costruisca sopra.

L'obiettivo entro fine settimana è una strategia di routing scritta, anche se è una sola pagina. Non un piano di migrazione. Un decision record.

Quanto costa, e quanto fa risparmiare

Il lato costi è reale. Usare i modelli OpenAI tramite AWS porterà il margine infrastrutturale di AWS sopra al pricing dei modelli OpenAI — lo stesso schema di Azure OpenAI Service. Se fai inference ad alto volume e ottimizzi puramente sul costo per token, l'accesso via API diretta rimane più economico. Il compromesso è che l'API diretta non eredita il tuo IAM su AWS, il logging su CloudTrail, i tuoi accordi di trattamento dei dati esistenti o i controlli di throughput di Bedrock. Per i team in cui la postura di compliance — non l'economia per unità — era il blocco all'adozione, il canale AWS risolve il problema giusto anche a un modesto premium di prezzo.

Il caso per il risparmio è la semplicità architetturale. Consolidare l'accesso a OpenAI su un unico canale cloud-native riduce il numero di credential store, logging sink e percorsi di egress di rete che mantieni per i workload AI. Per un team di ingegneria tra 50 e 200 FTE, quella semplificazione operativa vale più dello spread per token. Per i team sopra i 300 FTE con pratiche FinOps consolidate, la conversazione sull'economia per unità vale la pena di essere fatta prima di impegnare volumi — ma è un'analisi da 30 giorni, non una ragione per rimandare la decisione sulla strategia di routing questa settimana.

Parla con Domani AI per costruire tutto questo →

Source: https://openai.com/index/openai-on-aws

Hai in mente qualcosa di simile? → Inizia la conversazione

Start the conversation →

← Back to Insights