Google hat mit Gemini 3.5 Live Translate ein eigenes Audiomodell für simultane Sprachübersetzung vorgestellt. Das Modell läuft ab sofort in der Translate-App, kommt per Live-API zu Entwicklern und ersetzt demnächst die Übersetzung in Google Meet. Internationale Teams bekommen damit einen Dolmetscher, der nicht erst am Satzende loslegt.

drweb.de als bevorzugte Quelle auf Google hinzufügenQualitätsgeprüfte Inhalte direkt in Google News & DiscoverJetzt hinzufügen

Bis vor Kurzem übersetzte Meet nur zwischen Englisch und vier weiteren Sprachen. Seit dem 9. Juni sind es mehr als 70, und sie lassen sich in einer einzigen Besprechung mischen. Den Unterbau liefert Geminis neues Speech-to-Speech-Modell, das den Audiostrom schon während des Sprechens verarbeitet.

Das Wichtigste in Kürze

  • Gemini 3.5 Live Translate erkennt automatisch über 70 Sprachen und behält Tonfall und Sprechtempo des Sprechers bei.
  • Statt auf das Satzende zu warten, dolmetscht das Modell fortlaufend und bleibt nur wenige Sekunden hinter dem Gesprochenen.
  • Entwickler erreichen es ab sofort als Public Preview über die Gemini Live API und Google AI Studio.
  • In Google Meet startet die Funktion diesen Monat in privater Vorschau für ausgewählte Workspace-Kunden, der breite Rollout folgt später im Jahr.

Was macht das Modell anders als bisherige Übersetzer?

Ein hellblauer In-Ear-Kopfhörer mit Aufschrift „70+“ und weißer Passform vor weißem Grund
Gemini 3.5 Live Translate übersetzt kontinuierlich statt turnusweise und wartet nur zwei bis drei Sekunden, bevor es ausgibt, ohne Redepausen zu verursachen

Klassische Systeme arbeiten turnusweise. Diese Systeme hören zu und schieben die Übersetzung erst nach dem Satzende nach. Gemini 3.5 Live Translate wägt dagegen in jedem Moment ab, ob es auf mehr Kontext wartet oder sofort ausgibt. Im Gespräch bedeutet das einen Versatz von rund zwei bis drei Sekunden, ohne hörbare Pausen, sodass der Redefluss nicht ständig stockt.

Auch in lauten Umgebungen soll das Modell laut Google sauber arbeiten, etwa im Restaurant oder am Bahnhof. Entwicklerplattformen wie LiveKit, Agora oder Pipecat binden die Live-API bereits ein und nehmen Anbietern das Streaming-Backend ab. Den Modell-Hintergrund ordnet der LLMs-Ratgeber ein.

Bei Grab läuft das Modell bereits im Test, wo sich Fahrer und Fahrgäste über mehr als zehn Millionen Sprachanrufe im Monat verständigen. Philipp Kandal, Chief Product Officer bei Grab, sagt dazu: „Beim Testen von Gemini 3.5 Live Translate hat uns überzeugt, wie zuverlässig das Modell mehrere Sprachen automatisch erkennt und mit niedriger Latenz übersetzt.“

Jede vom Modell erzeugte Audioausgabe trägt ein SynthID-Wasserzeichen, das künstlich erzeugte Sprache maschinell erkennbar macht.

In Meet schrumpft die Sprachbarriere zur Nebensache. Die eigentliche Hürde liegt jetzt bei der IT, die klären muss, ob Googles Cloud-Verarbeitung der Sprachdaten zur eigenen DSGVO-Linie passt.

— Michael Dobler, Herausgeber Dr. Web

Was heißt das für internationale Meetings?

Ein weißer Smart-Speaker auf weißem Grund mit orangefarbener Beleuchtung und Flaggenetikett
Googles neues Übersetzungsmodell in Meet unterstützt über 70 Sprachen statt bisher fünf und ermöglicht über 2000 Sprachkombinationen pro Sitzung

In Meet ersetzt das Modell die alte Sprachübersetzung und hebt sie von fünf auf über 70 Sprachen. Möglich werden so mehr als 2000 Sprachkombinationen in derselben Sitzung, während Meet bislang nur von und nach Englisch dolmetschte. Ein Mittelständler mit Fertigung in Vietnam und Vertrieb in Mexiko kann den Videocall künftig ohne zugeschalteten Dolmetscher führen.

Ein Vorbehalt bleibt: Google verarbeitet die Sprachdaten in der Cloud, und ob das im Einzelfall DSGVO-konform läuft, hängt an den Workspace-Vertragsdetails. Diese Frage gehört geklärt, bevor ein Call mit Kundendaten über den Live-Dolmetscher läuft. Den Schritt davor, die reine Beta in drei Ländern, hatten wir im Dezember beschrieben, als die Funktion erstmals in Echtzeit mithörte.

Für alle anderen ist der Einstieg niedrig: Die Translate-App läuft auf Android und iOS, ein beliebiges Paar Kopfhörer genügt. Auf Android kommt zusätzlich ein Listening Mode, bei dem die Übersetzung direkt aus dem Ohrhörer des Telefons kommt, sobald man das Gerät ans Ohr hält. Prüfen Sie vor dem produktiven Einsatz, welche Sprachpaare Ihr Team wirklich braucht, und klären Sie die Cloud-Verarbeitung mit Ihrer IT, bevor sensible Inhalte durch den Dolmetscher laufen.

Mehr Newshunger?

4,3 18 Bewertungen

Wie hat Ihnen dieser Artikel gefallen?