OpenAI bringt drei neue Voice-Modelle für die API — Echtzeit-Übersetzung inklusive

OpenAI hat gestern drei neue Audio-Modelle für die API vorgestellt, die Sprachanwendungen auf ein neues Level heben sollen. Und diesmal geht es nicht um ChatGPT-Features für Endnutzer — sondern um Werkzeuge für Entwickler.

Die drei neuen Modelle

GPT-Realtime-2 ist der Nachfolger von GPT-Realtime-1.5 und bringt GPT-5-Klasse-Reasoning in Echtzeit-Gespräche. Das Modell kann komplexere Anfragen verarbeiten und Gespräche natürlicher weiterführen. Abgerechnet wird nach Token-Verbrauch.

GPT-Realtime-Translate übersetzt Sprache live aus über 70 Eingabesprachen in 13 Ausgabesprachen — und das in Echtzeit, während der Sprecher noch redet. Das ist nicht Google Translate mit Verzögerung, sondern simultan.

GPT-Realtime-Whisper transkribiert gesprochene Sprache live als Streaming-Text. Kein Warten auf das Ende einer Aufnahme — der Text erscheint, während du sprichst.

Warum das wichtig ist

Translate und Whisper werden pro Minute abgerechnet, nicht pro Token. Das macht die Preiskalkulation für Entwickler deutlich einfacher — und potenziell günstiger für lange Gespräche.

Die Einsatzgebiete sind breit: Bildung, Medien, Events, Creator-Plattformen. Wer heute eine App baut, die mit Sprache arbeitet, bekommt hier drei Bausteine, die vorher entweder gar nicht oder nur mit erheblichem Aufwand verfügbar waren.

Safety first

OpenAI hat Guardrails eingebaut, die Missbrauch wie Spam, Betrug oder andere Formen von Online-Missbrauch verhindern sollen. Gespräche können automatisch gestoppt werden, wenn sie gegen die Content-Richtlinien verstoßen.

Einordnung

Die Stimme als Interface wird gerade von allen Seiten gleichzeitig angegangen. Google hat mit Gemini 3.1 Flash TTS kürzlich ein eigenes Sprachmodell für 70 Sprachen vorgestellt. OpenAI kontert jetzt mit einem vollständigen Echtzeit-Stack für Entwickler.

Für uns als Nutzer bedeutet das: Die Apps, die wir in den nächsten Monaten sehen werden, können mit Sprache umgehen wie nie zuvor. Simultanübersetzung, Live-Transkription, natürliche Gespräche — alles über eine API.

Quellen: OpenAI: Advancing voice intelligence with new models in the API, TechCrunch: OpenAI launches new voice intelligence features in its API