Hand aufs Herz: Wann haben Sie zuletzt einen Kundendialog auf Englisch geführt und gedacht, lieber Deutsch sprechen zu wollen? Die Voice-Übersetzung in Echtzeit ist ab sofort für rund 3 Cent pro Minute via API verfügbar. OpenAI hat am 7. Mai 2026 drei neue Voice-Modelle in seine Realtime-API integriert.
drweb.de als bevorzugte Quelle auf Google hinzufügenQualitätsgeprüfte Inhalte direkt in Google News & DiscoverJetzt hinzufügenDas Wichtigste in Kürze
- 70 Eingabe-Sprachen werden in 13 Ausgabe-Sprachen übersetzt, Deutsch ist dabei
- Preis: 0,034 US-Dollar pro Minute, umgerechnet rund 3 Cent
- Deutsche Telekom testet die Technik bereits für mehrsprachigen Voice-Support
- Trainiert auf tausenden Stunden professioneller Dolmetscher-Audio
Was kann GPT-Realtime-Translate konkret?

Im Kern ist GPT-Realtime-Translate ein dedizierter Übersetzungs-Pipe für Live-Audio. Sprache geht in einer Sprache rein, kommt in einer anderen raus. Das Modell reagiert ausschließlich übersetzend. Fragen aus dem Audio-Stream beantwortet das System nicht. Das ist gewollt: OpenAI hat das Modell auf tausenden Stunden professioneller Dolmetscher-Audio trainiert, damit es eben nicht eigenmächtig wird.
Die Latenz liegt niedrig genug, um natürliche Gesprächs-Dynamik zu erlauben. Während der Sprecher noch redet, läuft die Übersetzung bereits parallel raus. Tonlage und Sprechstil des Originals werden dynamisch übernommen. In Multi-Sprecher-Sessions wechselt die Stimme entsprechend mit.
Die 13 Ausgabe-Sprachen sind Spanisch, Portugiesisch, Französisch, Japanisch, Russisch, Chinesisch, Deutsch, Koreanisch, Hindi, Indonesisch, Vietnamesisch, Italienisch und Englisch. Für deutsche Mittelständler ein vollständiges DACH-Setup mit gleichzeitiger Anbindung an die größten Exportmärkte.
Warum die Deutsche Telekom als Pilot-Kunde an Bord ist

Die Telekom baut nach OpenAI-Angaben einen Voice-Support, in dem Kunden in ihrer Wunschsprache sprechen, während das Modell die Konversation live übersetzt. Greg Brockman, OpenAI-Mitgründer, kommentierte den Launch auf X mit dem Hinweis, dass Voice-to-Voice-Übersetzung seit den frühen Tagen des Unternehmens auf der Wunschliste stand. Jetzt sei sie endlich für jeden buchbar.
Voice-Übersetzung war jahrelang ein Demo-Trick. Für 3 Cent pro Minute ist sie jetzt Infrastruktur. Wer in den nächsten zwölf Monaten keinen mehrsprachigen Support aufbaut, lässt Kunden auf dem Tisch liegen.
— Markus Seyfferth, Chefredakteur Dr. Web
Auch Vimeo zeigt einen Anwendungsfall: Produkt-Videos werden live während des Abspielens übersetzt, ohne dass vorab Captions hinterlegt sind. Reiseportal Priceline arbeitet an Voice-Buchungs-Flows, in denen Reisende ihre gesamte Reise per Sprache verwalten, inklusive Übersetzung am Boden.
Was kostet der Spaß für Ihren Mittelstand?

Die Preisstruktur ist klar kalkulierbar: GPT-Realtime-Translate kostet 0,034 US-Dollar pro Minute, umgerechnet etwa 3 Cent. Ein einstündiger Kunden-Call schlägt mit rund 1,80 € zu Buche. Das Transkriptions-Modell GPT-Realtime-Whisper liegt mit 0,017 US-Dollar pro Minute nochmal niedriger.
Wichtig für die DSGVO-Compliance: Die Realtime-API ist ab sofort allgemein verfügbar und nicht mehr in der Beta. Bei sensiblen Kundengesprächen wie in Banken, Versicherungen oder Arztpraxen führt an einer expliziten Auftragsverarbeitungs-Vereinbarung kein Weg vorbei.
Welche Ressourcen helfen bei der KI-Auswahl im DACH-Raum?

Eine systematische Vorauswahl bietet der Ratgeber zu Large Language Models im Unternehmenseinsatz, der zehn Anbieter mit DSGVO-Bewertung vergleicht. Wer breiter scannen will, findet im Round-up der 22 wichtigsten KI-Tools ungeschönte Praxiseinschätzungen aus der Redaktion. Für Texterstellung als Schwerpunkt vergleicht der Test der 10 besten KI-Textgeneratoren die wichtigsten Tools für den deutschen Markt. Und für die rechtliche Seite ist der Leitfaden zur DSGVO-konformen Website-Gestaltung der erste Anlaufpunkt.
Mehr #OpenAI News
Mehr Newshunger?
