Kostet Gemini 3.5 Flash bald wie Pro? Fast.

Markus Seyfferth
Autor Dr. Web
5 Min. Lesezeit
Kostet Gemini 3.5 Flash bald wie Pro? Fast.

Gemini 3.5 Flash schlägt das große Pro-Modell auf Coding-Benchmarks, kostet aber das Sechsfache der bisherigen Flash-Lite-Variante. Eine Detail-Analyse der Preisstruktur, der echten Benchmark-Zahlen und der Folgen für API-Budgets im DACH-Mittelstand.

drweb.de als bevorzugte Quelle auf Google hinzufügenQualitätsgeprüfte Inhalte direkt in Google News & DiscoverJetzt hinzufügen

Gemini 3.5 Flash hat Google bei der I/O 2026 als Standardmodell für Milliarden Nutzer ausgerollt und gleichzeitig die Preisliste deutlich angehoben. Frontier-Performance zum Flash-Tempo klingt zunächst nach einem Geschenk an Entwickler. Die Rechnung sieht im API-Detail allerdings anders aus.

Das Wichtigste in Kürze

  • API-Preis bei 1,31 € pro Million Input-Token und 7,83 € pro Million Output-Token, etwa sechsmal so teuer wie Gemini 3.1 Flash-Lite
  • Übertrifft Gemini 3.1 Pro auf Terminal-Bench 2.1 (76,2 %), GDPval-AA (1.656 Elo) und MCP Atlas (83,6 %)
  • Knowledge-Cutoff Januar 2025, Kontextfenster 1.048.576 Input- und 65.536 Output-Token
  • Bereits produktiv bei Shopify, Macquarie Bank, Salesforce, Ramp, Xero und Databricks

Wie viel Frontier-Leistung steckt wirklich im Flash-Modell?

Fahrrad-Carbon-Laufrad mit Schwalbe-Reifen und Preisschild auf weißem Hintergrund
Gemini 3.5 Flash erreicht 76,2% auf Terminal-Bench 2.1, überholt Pro-Modell und erzielt 83,6% bei MCP Atlas sowie 84,2% bei CharXiv Reasoning

Benchmark-Sprung. Auf Terminal-Bench 2.1 erreicht Gemini 3.5 Flash 76,2 Prozent und überholt damit das größere Pro-Modell. Beim agentischen Standardtest MCP Atlas landen 83,6 Prozent auf dem Konto, bei der wissenschaftlichen Diagrammanalyse CharXiv Reasoning sind es 84,2 Prozent. Auf dem GDPval-AA-Benchmark, der reale Arbeitsplatz-Aufgaben simuliert, erreicht das Modell 1.656 Elo-Punkte.

Tempo-Faktor. Vier Mal schneller als andere Frontier-Modelle bei der Output-Geschwindigkeit, gemessen in Tokens pro Sekunde. Damit eignet sich das Modell für lange Ketten von Agent-Calls, in denen Latenz schnell zur Bremse wird. Eine genauere Einordnung der aktuellen LLM-Landschaft im DACH-Markt liefert der LLMs-Ratgeber auf Dr. Web.

Architektur-Details. Das Kontextfenster fasst 1.048.576 Input-Tokens und gibt maximal 65.536 Output-Tokens zurück. Der Wissensstand reicht bis Januar 2025, der Modellname in der API lautet schlicht gemini-3.5-flash. Eine Computer-Use-Funktion fehlt im Gegensatz zur vorigen Gemini-3.x-Reihe.

Was kostet Gemini 3.5 Flash wirklich?

Orangener Anhänger mit grünem Drachen und Text „GEMINI 3.5 FLASH KOSTET FAST WIE PRO“
Google erhöht Gemini 3.1 Flash-Preise auf 1,31 € pro Million Input-Token und 7,83 € Output-Token, sechsfach teurer als Flash-Lite

Preis-Sprung. Google ruft 1,31 € pro Million Input-Token und 7,83 € pro Million Output-Token auf (umgerechnet zum Kurs 0,87). Im Vergleich zu Gemini 3.1 Flash-Lite ist das Modell damit etwa sechsmal so teuer, gegenüber dem Vorgänger Gemini 3 Flash Preview verdreifachen sich die Kosten. Zur Pro-Variante Gemini 3.1 Pro mit 1,74 € Input und 10,44 € Output trennt das neue Flash-Modell nur noch ein knapper Abstand.

Kalkulations-Frage. Für API-intensive Produkte verschiebt sich die Rechnung deutlich. Bei einem bestehenden Agenten auf Flash-Lite mit monatlich 500 Millionen Output-Token ergibt sich nach dem Umstieg eine Kostenposition von rund 3.900 € statt der bisherigen 650 €. Die zusätzliche Intelligenz muss diesen Sprung wirtschaftlich tragen.

Verfügbarkeit. Generell verfügbar über Google Antigravity, die Gemini API in Google AI Studio und Android Studio sowie über das Gemini Enterprise Agent Platform. Das Pro-Modell folgt im Juni 2026. Details zur Modellfamilie dokumentiert Google im offiziellen Keyword-Blog.

Frontier-Qualität an der Preisgrenze zum großen Pro-Modell ist keine Sensation, sondern eine Konsolidierung. Der Wettbewerb verschiebt sich von der Modellleistung hin zur Frage, welcher Agent-Stack tatsächlich Geld einspielt.

— Michael Dobler, Herausgeber Dr. Web

Welche Enterprise-Anwendungsfälle laufen bereits produktiv?

Waage mit Eisblitz (
Macquarie Bank nutzt KI zum schnelleren Customer-Onboarding durch Dokumentenanalyse. Shopify einsetzt Subagenten für Wachstumsprognosen

Banken-Workflow. Macquarie Bank testet das Modell zur Beschleunigung des Customer-Onboardings: 100-Seiten-Dokumente werden analysiert, relevante Informationen extrahiert und Empfehlungen ausgespielt. Shopify lässt parallel laufende Subagenten Wachstumsprognosen für Händler über lange Zeiträume rechnen, die früher Tage gebraucht hätten.

Buchhaltung im Subagent-Modus. Ramp setzt das Modell für intelligente Rechnungserkennung ein und kombiniert multimodale Analyse mit historischen Buchungsmustern. Xero baut autonome Agenten für komplexe, mehrwöchige Verwaltungsabläufe wie die Erstellung von 1099-Steuerformularen. Beide Beispiele zeigen, wie Long-Horizon-Tasks aus dem Backoffice in die KI-Schicht wandern.

Plattform-Integrationen. Salesforce integriert das Modell in Agentforce für komplexe Multi-Tool-Calls mit mehreren Übergaben, Databricks lässt Agenten Echtzeitdaten überwachen und Lösungsvorschläge generieren. Die Beispiele decken Banken, Buchhaltung, CRM und Data Science gleichermaßen ab.

DACH-Lehre. Für deutsche Mittelständler ergibt sich daraus eine Hausaufgabe: Den eigenen Agent-Stack auf konkrete Geschäftsprozesse mit messbarem ROI prüfen, statt generische Chatbots in PR-Folien zu rühmen. Konkrete Anregungen liefert der Artikel zu autonomen Coding-Agenten im Industrie-Workflow.

Welche Folgen hat das für die GEO-Strategie?

Ein Globus mit einem gelben Notizzettel darauf, auf dem
Google Search nutzt seit 19. Mai 2026 Gemini 3.5 Flash für AI Mode. Schnellere Antworten und mehr generative UI-Elemente verdrängen klassische Suchergebnislisten weiter

Such-Verschiebung. AI Mode in Google Search läuft seit dem 19. Mai 2026 auf Gemini 3.5 Flash. Für Marketing- und SEO-Teams im DACH-Raum verschiebt sich damit die Spielfläche erneut. Antworten werden schneller generiert, generative UI-Elemente häufiger eingebaut, die klassische blaue Linkliste verliert weiter an Anteil. Was das für die Sichtbarkeit deutschsprachiger Marken bedeutet, beleuchtet der GEO-Ratgeber auf Dr. Web.

Praxis-Aufgabe. Drei Stellschrauben verdienen Aufmerksamkeit. Strukturierte Daten und Schema-Markup sauber pflegen. Eigene Studien, Zahlen und Original-Quellen prominent ausweisen. Den eigenen Anteil an Brand-Mentions im offenen Web aktiv aufbauen. Wie sich diese Faktoren nach dem Algorithmus-Update konkret auswirken, dokumentiert die Auswertung zum Google Mai-Update 2026.

Gemini 3.5 Flash markiert weniger einen technischen als einen kommerziellen Wendepunkt. Frontier-Leistung wandert in die Flash-Klasse, der Preis zieht entsprechend an. Planen Sie 2026 mit Gemini-APIs? Dann tracken Sie den eigenen Output-Token-Verbrauch sauber und rechnen Sie den Business-Case pro Agent durch, bevor das Monatsbudget unangekündigt nach oben rutscht.

Mehr Newshunger?

Wanderer-Miniaturkletterleiter auf gestapelten Holzwürfeln mit Beschriftungen für KI-Modelle
Gemini 3.5 Flash von Google ist viermal schneller als konkurrierende Modelle und Teil des größten Search-Updates seit 25 Jahren
4,1 10 Bewertungen

Wie hat Ihnen dieser Artikel gefallen?

Markus Seyfferth
Autor
ist seit 2019 geschäftsführender Gesellschafter von Dr. Web. Er verantwortet die redaktionelle Ausrichtung des Dr. Web Magazins und bringt seine Expertise in den Bereichen Webdesign, Webentwicklung, WordPress, SEO sowie Online Marketing ein. Zudem verfasst er regelmäßig Fachartikel, um sein Wissen und seine Erfahrungen zu teilen und anderen im Online Marketing weiterzuhelfen.
783 Artikel veröffentlicht
Alle Artikel

Schreiben Sie einen Kommentar

Ihre E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Newsletter

Mehr solcher Artikel?
Jetzt kostenlos abonnieren.

Jeden Dienstag die besten Artikel aus dem Dr. Web-Magazin direkt in Ihr Postfach – kein Spam, jederzeit abmeldbar.

Einmal pro Woche, kein täglicher Spam
Jederzeit mit einem Klick abmeldbar
DSGVO-konform via Brevo