Skip to content
Editorial · ai in production

Codex hinter deiner Firewall: rechnet sich On-Prem wirklich?

OpenAI und Dell machen air-gapped Coding Agents möglich — ob sich das lohnt, entscheidet die Infra-Kostenrechnung gegen SaaS-Seats.

May 20, 2026· 5 min read· Domani AI

OpenAI und Dell haben eine Partnerschaft angekündigt, um Codex in hybriden und On-Premise-Unternehmensumgebungen zu betreiben — und damit regulierten Firmen einen Weg zu eröffnen, Coding Agents einzusetzen, ohne proprietären Code durch eine geteilte Cloud zu schleusen. Für einen CTO in einem Unternehmen mit 50–500 FTEs ist das mehr als eine Schlagzeile. Die Frage ist nur nicht mehr "können wir das", sondern: "sollten wir — und ab wann frisst der Infra-Overhead den ROI auf?" Wir denken, die meisten Teams stehen an einer Weiche mit drei Optionen. Welchen Ast du nimmst, hängt von vier Variablen ab, die du diese Woche durchrechnen kannst.

Was sich durch die OpenAI-Dell-Ankündigung geändert hat

OpenAI und Dell haben eine formelle Partnerschaft angekündigt, um Codex — OpenAIs coding-fokussierten Agent-Modell — in hybride und vollständig On-Premise-Unternehmensumgebungen zu bringen. Die Integration läuft auf Dells Infrastruktur-Stack. Organisationen können das Modell also innerhalb ihrer eigenen Datengrenzen hosten, statt es als Cloud-API zu konsumieren. Die Partnerschaft zielt auf Unternehmen, die KI-gestützte Coding-Unterstützung brauchen, aber mit Data-Residency-Anforderungen, IP-Sensibilität oder internen Sicherheitsrichtlinien konfrontiert sind, die das Senden von Quellcode an einen externen Endpunkt ausschließen.

Das setzt ein Muster fort, das sich seit Ende 2024 abzeichnet: Frontier-Modelle, die sich in Richtung Infrastruktur-Layer-Distribution bewegen — weg von reinem SaaS-Delivery. Microsoft bettet Copilot bereits in private Azure-Tenants ein; der Dell-Pfad gibt Organisationen, die On-Prem oder in privater Colocation arbeiten, eine vergleichbare Option, ohne sich an Azure zu binden. Der entscheidende Unterschied ist die physische Grenze — Code verlässt die Infrastruktur, die das Unternehmen kontrolliert, nie.

"Codex" bezeichnet hier die agent-fähige Variante, nicht das Legacy-Completion-Modell. Das ist wichtig, weil der Use Case kein Autocomplete ist — sondern autonome, mehrstufige Coding-Aufgaben: Tests schreiben, Module refaktorieren, Scaffolding aus Specs generieren. Der operative Footprint eines Agent-Modells On-Prem ist wesentlich größer als das Hosten eines fine-getunten Inference-Endpunkts.

Warum die Buy-vs.-Host-Rechnung für deinen Stack komplizierter ist als sie aussieht

Das Oberflächenargument für On-Prem Codex ist eingängig: dein IP bleibt auf deiner Hardware, dein Compliance-Team hört auf, Fragen zu stellen, und du zahlst keine Per-Seat-SaaS-Gebühren mehr im großen Maßstab. Aber der Infra-Aufwand ist real — und er fällt im Voraus an. Eine Deployment-Umgebung, die 20–50 gleichzeitige Entwickler-Sessions bedienen kann, erfordert erhebliche GPU-Kapazität. Kein einmaliger Kostenpunkt, sondern ein laufender — inklusive Strom, Wartung, Modell-Updates und den Engineering-Stunden für die Integration. Wenn dein Dell-Footprint bereits für KI-Workloads ausgelegt ist, amortisierst du gegen versunkene Kosten. Wenn du Net-New-Hardware beschaffen müsstest, verschiebt sich der Break-even-Zeitraum erheblich.

Der Vergleichspunkt ist GitHub Copilot Enterprise bei etwa 39 Dollar pro User und Monat — oder vergleichbare SaaS Coding Agent Seats im Bereich 30–50 Dollar. Für ein 50-köpfiges Engineering-Team sind das unter 25.000 Dollar pro Jahr. Eine Zahl, die typischerweise deutlich unter den Kosten liegt, eine private Inference-Umgebung aufzubauen und zu betreiben. Die Rechnung kippt bei größeren Teams und in regulierten Sektoren. Eine 200-köpfige Engineering-Organisation in Financial Services oder Defence Contracting — wo selbst ein theoretisches Data-Exfiltration-Risiko Audit-Findings auslöst — steht vor einer anderen Gleichung als ein wachsendes SaaS-Unternehmen, das auf AWS baut.

Es gibt eine dritte Variable, die in der Berichterstattung meist untergeht: die Update-Kadenz des Modells. Mit SaaS bekommst du Verbesserungen automatisch. On-Prem gehört dir der Update-Zyklus — was bedeutet, dass dein On-Prem-Codex-Deployment ohne aktive Wartungsinvestition hinter dem Frontier-Modell zurückfallen kann. Bei Coding Agents speziell, wo sich Fähigkeiten schnell kumulieren, hat dieser Drift messbare Produktivitätskosten.

Sprich mit Domani AI darüber, wie wir das umsetzen →

Der Montag-Morgen-Schritt: den Entscheidungsbaum durchlaufen, bevor du dem Board briefst

Bevor das zu einem Vendor-Gespräch oder einem Kapitalantrag wird, beantworte vier Fragen intern. Die sagen dir, auf welchem Ast du sitzt.

  • Harte Data-Residency-Anforderung? Wenn ja — GDPR-Artikel-44-Transferbeschränkungen, FedRAMP-Boundary, sektorspezifische Regulierung — hast du einen echten Compliance-Treiber, keine Präferenz. Das verschiebt die Break-even-Rechnung, weil die SaaS-Alternative möglicherweise gar nicht viable ist.
  • Bestehende Dell-Infrastruktur mit Headroom? Wenn deine Organisation bereits eine Dell-basierte Private Cloud betreibt und freie GPU-Kapazität hat, sinken die Grenzkosten eines Codex-Deployments deutlich. Wenn du Hardware kaufen müsstest, modelliere die gesamten 3-Jahres-TCO, bevor das Gespräch weitergeht.
  • Engineering-Team über 100 Personen? Darunter gewinnen SaaS-Seats in der reinen Kostenrechnung fast immer — außer ein Compliance-Treiber zwingt dich. Ab 100 mit stabilem Headcount beginnt der Per-Seat-SaaS-Preis mit amortisierter Infra zu konkurrieren.
  • Hast du ein ML-Platform-Team oder Äquivalent? Irgendjemand muss Modell-Updates, Uptime und Integrationswartung verantworten. Wenn diese Fähigkeit heute nicht existiert, rechne 0,5–1,0 FTE-Äquivalent in dein Cost Model, bevor du gegen Copilot vergleichst.

Wenn du alle vier erfüllst — harte Compliance-Anforderung, bestehender Dell-Footprint, 100+ Engineers, interne Platform-Kompetenz — dann vereinbare das Dell-Gespräch diese Woche. Wenn dir zwei oder mehr fehlen, ist der Montag-Schritt folgender: starte einen 90-tägigen SaaS-Pilot mit Copilot Enterprise oder einem vergleichbaren Tool, instrumentiere die Developer-Adoption, und komm auf On-Prem zurück, wenn du echte Nutzungsdaten als Anker für die Entscheidung hast.

Was es kostet — und was es ehrlich gesagt einspart

Auf der Kostenseite: Hardware-Beschaffung (falls Net-New), Integrations-Engineering geschätzt auf 4–8 Wochen eines Senior Engineers für das initiale Deployment, laufender Modell-Management-Overhead und die Opportunitätskosten von Kapazität, die auch andere Workloads betreiben könnte. Das sind keine spekulativen Zahlen — das ist die operative Realität jeder On-Prem-KI-Inference-Umgebung. Das Codex-Deployment ist aufgrund seiner Agent-Architektur dabei nicht einfacher als der Durchschnitt.

Auf der Sparseite: wegfallende Per-Seat-SaaS-Kosten im großen Maßstab, eliminiertes Data-Exfiltration-Risiko — und der damit verbundene Audit- und Rechtsaufwand — sowie, für Organisationen, die auf dem Deployment aufbauen, die Möglichkeit, auf internen Codebases zu fine-tunen, was SaaS-Anbieter aktuell nicht unterstützen. Dieser letzte Punkt wird unterschätzt. Ein On-Prem-Modell, das du kontrollierst, ist ein Fundament für weitere Anpassung; ein SaaS-Seat nicht. Wenn deine Roadmap domänenspezifische Coding Agents umfasst, die auf deinem proprietären Stack trainiert sind, baut der On-Prem-Pfad auf etwas hin. Wenn nicht, zahlst du Infra-Kosten für eine Fähigkeit, die du günstiger mieten könntest.

Ähnliches Vorhaben im Kopf? → Starte das Gespräch

Start the conversation →
Codex hinter deiner Firewall: rechnet sich On-Prem wirklich? · Domani AI