Editorial · inference infra

OpenAI sur AWS vient d'éliminer ton dernier argument pour attendre

GPT, Codex et Managed Agents sur AWS obligent chaque CTO AWS-natif à revoir sa stratégie de routing d'inférence cette semaine.

May 1, 2026· 6 min read· Domani AI

Les modèles OpenAI, Codex et Managed Agents sont désormais disponibles directement sur AWS. Pour la majorité des équipes de 50 à 500 ingénieurs qui ont construit leur posture data autour d'AWS et différé discrètement l'adoption d'OpenAI, la raison d'attendre a disparu. La vraie question n'est plus de savoir si tu peux utiliser OpenAI dans ton environnement AWS — c'est de savoir si les décisions de routing prises ces 18 derniers mois sont encore les bonnes.

Ce qui a changé

Depuis fin avril 2026, les modèles OpenAI GPT, Codex et Managed Agents sont disponibles sur AWS, ce qui permet aux entreprises de déployer et d'exploiter les capacités OpenAI dans leurs environnements AWS existants. Les équipes peuvent appeler les modèles OpenAI sans que les données quittent leur périmètre AWS, en s'intégrant aux politiques IAM, aux configurations VPC, aux pipelines de logging et aux contrôles de conformité déjà en place.

Codex — le système de génération de code et d'agent logiciel d'OpenAI — fait partie du lancement, pas seulement les modèles de type chat. Managed Agents, la couche d'orchestration hébergée d'OpenAI pour les workflows agentiques multi-étapes, arrive également sur AWS simultanément. Ce sont trois niveaux de capacités distincts qui débarquent en même temps : des modèles de fondation, un système spécialisé pour le code, et un runtime d'orchestration.

Cela fait suite à la disponibilité d'OpenAI sur Azure et via l'API directe — une situation qui plaçait les équipes AWS-natives devant un choix architecturalement inconfortable : déplacer les données vers un autre cloud pour accéder au modèle, accepter les coûts d'egress cross-cloud, ou utiliser les modèles natifs de Bedrock en faisant l'impasse sur OpenAI. Ce compromis à trois termes est désormais résolu côté infrastructure.

Pourquoi ton contrat Bedrock est maintenant une question de routing, pas un choix par défaut

La plupart des équipes AWS-natives de 50 à 500 ingénieurs n'ont pas activement choisi les endpoints Claude, Titan ou Llama de Bedrock. Elles y ont atterri par défaut parce qu'elles étaient déjà sur AWS et qu'OpenAI n'y était pas. Ce choix passif est désormais un choix que tu dois assumer consciemment, parce que la contrainte qui le rendait passif n'existe plus.

Cela a des implications architecturales concrètes sur trois points. Premièrement, si tu as des engagements de dépense sur Bedrock — capacité réservée, accords entreprise ou paliers de débit — tu dois maintenant quantifier si l'ajout d'endpoints OpenAI via AWS crée une dépense redondante ou une couverture complémentaire. Deuxièmement, si tu as construit des workflows d'agent sur le framework natif de Bedrock, Managed Agents d'OpenAI représente un runtime d'orchestration concurrent à l'intérieur du même cloud. Faire tourner deux couches d'orchestration n'est pas intrinsèquement problématique, mais ça doit être délibéré. Troisièmement, la disponibilité de Codex change le calcul spécifiquement pour les équipes qui font de l'automatisation du développement logiciel : Bedrock n'a pas d'équivalent code-agent en propre au même niveau de capacité, ce qui signifie que les équipes qui différaient leurs pipelines de développement assisté par IA pour des raisons de résidence des données ont un déblocage concret cette semaine.

Le risque plus subtil, c'est la dérive de posture multi-cloud. Les équipes AWS-natives qui ont des endpoints Azure OpenAI Service pour des cas d'usage spécifiques — souvent ajoutés par des équipes individuelles sans revue d'architecture centrale — ont désormais une opportunité de consolidation qu'elles n'avaient pas avant. Si tu ne fais pas l'inventaire maintenant, tu te retrouveras avec trois chemins d'accès à OpenAI (API directe, Azure OpenAI Service, OpenAI sur AWS) en parallèle, avec des modèles d'authentification différents, des configurations de logging différentes et des centres de coûts différents. La dette d'audit s'accumule vite.

Ce qu'il faut faire dès lundi matin

L'action de cette semaine, c'est un inventaire et une décision de routing — pas une migration. Ne commence pas à déplacer des workloads avant de savoir ce que tu déplaces et pourquoi.

Audite ta surface OpenAI actuelle. Liste chaque application, pipeline et prototype qui touche l'API d'OpenAI. Note si ça passe en direct, via Azure, ou si OpenAI n'est pas utilisé du tout. Cette liste ne devrait prendre qu'une demi-journée à un ingénieur.
Cartographie tes engagements Bedrock. Récupère l'utilisation active de tes modèles Bedrock et les éventuels accords entreprise. Identifie quelles familles de modèles sont structurantes et lesquelles sont exploratoires.
Identifie les workloads pertinents pour Codex. Si tu as des cas d'usage d'automatisation du développement logiciel — revue de PR, génération de tests, pipelines de refactoring — qui étaient bloqués par des contraintes de résidence des données, ce sont des candidats immédiats à évaluer dans le cadre de cette nouvelle disponibilité.
Définis une politique de routing avant que les équipes s'auto-organisent. La façon la plus rapide de créer de la dette de gouvernance, c'est de laisser des équipes individuelles découvrir OpenAI sur AWS indépendamment et commencer à le câbler de façon ad hoc. Une politique interne de routing d'une page — quelle famille de modèles va où, dans quelles conditions — évite trois mois de nettoyage.
Décide délibérément sur Managed Agents. Si tu fais déjà tourner une couche d'orchestration (LangGraph, Bedrock Agents, un framework maison), ajouter Managed Agents revient à avoir un second runtime. Évalue si l'écart de capacité justifie la complexité opérationnelle avant qu'une équipe ne s'en serve en production.

L'objectif d'ici la fin de semaine, c'est une stratégie de routing écrite, même si c'est une seule page. Pas un plan de migration. Un decision record.

Ce que ça coûte, et ce que ça économise

Le coût est réel. Faire tourner des modèles OpenAI via AWS implique la marge d'infrastructure d'AWS en plus du pricing des modèles OpenAI — le même schéma qu'Azure OpenAI Service. Si tu fais de l'inférence à haut volume en optimisant purement sur le coût au token, l'API directe reste moins chère. Le compromis, c'est que l'API directe n'hérite pas de ton IAM AWS, de ton logging CloudTrail, de tes accords de traitement des données existants, ni de tes contrôles de débit Bedrock. Pour les équipes où c'est la posture de conformité — et non l'économie unitaire — qui bloquait l'adoption, le canal AWS résout le bon problème même à un léger premium de prix.

L'argument pour les économies, c'est la simplicité architecturale. Consolider l'accès à OpenAI sur un seul canal cloud-natif réduit le nombre de stores de credentials, de sinks de logging et de chemins d'egress réseau à maintenir pour les workloads IA. Pour une équipe d'ingénierie de 50 à 200 personnes, cette simplification opérationnelle vaut plus que l'écart au token. Pour les équipes de plus de 300 personnes avec des pratiques FinOps établies, la conversation sur l'économie unitaire mérite d'être menée avant de s'engager sur les volumes — mais c'est une analyse de 30 jours, pas une raison de différer la décision de routing cette semaine.

Parler à Domani AI pour construire ça →

Source: https://openai.com/index/openai-on-aws

Vous avez un projet similaire en tête ? → Démarrons la conversation

Start the conversation →

← Back to Insights