Jetzt allgemein verfügbar · Vorgestellt auf Google I/O 2026 · 19. Mai 2026

Gemini 3.5 Flash — KostenlosAgentische KI auf Pro-Niveau mit Flash-Geschwindigkeit

Gemini 3.5 Flash ist das schnellste Frontier-Modell von Google DeepMind, veröffentlicht am 19. Mai 2026. Es liefert Reasoning-Tiefe auf Pro-Niveau mit einem 1M Token Kontextfenster und ist 4× schneller als vergleichbare Frontier-Modelle zu weniger als der Hälfte der Kosten — jetzt kostenlos auf Felo AI ausprobieren.

Kostenlos auf Felo AI nutzbar — keine Kreditkarte erforderlich

81.2%
MMMU-Pro Score
Weltweiter #1 Multimodal-Benchmark
$0.50
Eingabepreis
1,50 $ / 1M Token über API
0.2s
Geschwindigkeitsvorteil
4× schneller als vergleichbare Modelle
1M
Kontextfenster
Token in einer einzelnen Anfrage

Was Gemini 3.5 Flash besonders macht

Das erste Flash-Modell, das seinen eigenen Pro-Vorgänger bei agentischen und Coding-Benchmarks übertrifft — bei gleichzeitig Flash-typischer Geschwindigkeit und Kosteneffizienz.

Geschwindigkeits-Icon

Entwickelt für agentische Workflows

Gemini 3.5 Flash ist Googles bisher leistungsfähigstes agentisches und Coding-Modell. Es führt zuverlässig langfristige Aufgaben über Stunden oder Wochen aus, verarbeitet mehrstufige Tool-Nutzung und koordiniert Sub-Agenten über Googles Antigravity-Framework — wodurch groß angelegte agentische Systeme wirtschaftlich realisierbar werden.

Denken-Icon

Dynamisches Thinking — Konfigurierbare Reasoning-Tiefe

Thinking ist standardmäßig aktiviert mit einem neuen thinking_level-Parameter (Standard: medium). Gemini 3.5 Flash führt interne mehrstufige Planung durch, bevor es antwortet, und liefert Reasoning-Tiefe, die Flaggschiff-Pro-Modellen bei Mathe-, Coding- und Logikaufgaben ebenbürtig ist — mit pro Anfrage einstellbarer Tiefe.

Kontext-Icon

1M Token Kontextfenster

Ganze Codebasen, stundenlange Videos oder jahrelange Finanzverträge in einer einzigen Anfrage verarbeiten. Das 1M Eingabe-Token-Fenster kombiniert mit 64K Ausgabe-Token bedeutet: Komplexe Aufgaben bleiben vollständig — nichts wird abgeschnitten. MRCR v2 Langkontext-Score von 26,6 % führt alle vergleichbaren Modelle an.

Kosten-Icon

4× schneller, weniger als die Hälfte der Kosten

Gemini 3.5 Flash ist 4× schneller als vergleichbare Frontier-Modelle zu weniger als der Hälfte der Kosten. Bei 1,50 $ pro Million Eingabe-Token mit Kontext-Caching für 0,15 $/M wird der Betrieb von KI-Agenten rund um die Uhr praktisch realisierbar — nicht nur technisch möglich.

Die neue Pareto-Grenze: Geschwindigkeit × Intelligenz

Jahrelang bedeutete schneller auch weniger leistungsfähig. Gemini 3.5 Flash bricht diesen Kompromiss — es steht oben rechts auf der Geschwindigkeit-Intelligenz-Kurve und übertrifft Modelle, die ein Vielfaches kosten.

Intelligenz-vs-Geschwindigkeit-Diagramm, das Gemini 3.5 Flash an der Pareto-Grenze zeigt

Gemini 3.5 Flash führt die Intelligenz-vs-Geschwindigkeit-Pareto-Grenze unter Frontier-Modellen an. Quelle: Artificial Analysis, Mai 2026.

Leistungs-Benchmarks

Gemini 3.5 Flash vs Claude Opus 4.7 vs GPT-5.5

Offizielle Model-Card-Ergebnisse. Gemini 3.5 Flash führt bei multimodalem Verständnis, agentischer Tool-Nutzung und Langkontext-Abruf.

Benchmark
Gemini 3.5 Flash
Claude Opus 4.7
GPT-5.5
MMMU-Pro
83.6%
75.2%
81.2%
CharXiv Reasoning
84.2%
82.1%
84.1%
MCP Atlas
83.6%
79.1%
75.3%
Terminal-Bench 2.1
76.2%
66.1%
78.2%
OSWorld-Verified
78.4%
78.0%
78.7%
MRCR v2 (1M ctx)
26.6%

Quelle: Gemini 3.5 Flash Model Card — Google DeepMind, Mai 2026.

Technische Spezifikationen

Alles, was Sie wissen müssen, bevor Sie Gemini 3.5 Flash in Ihre Anwendung integrieren.

Kontextfenster

1.048.576 Token Eingabe
65.536 Token Ausgabe

API-Preise

1,50 $ / 1M Eingabe-Token
9,00 $ / 1M Ausgabe-Token
0,15 $ / 1M gecachte Token

Allgemeine Verfügbarkeit

19. Mai 2026 — Google I/O

Wissens-Cutoff

Januar 2026

Thinking-Modus

Standardmäßig aktiviert. Konfigurierbar über thinking_level: low / medium (Standard) / high. Thought Preservation bewahrt das Reasoning über mehrere Gesprächsrunden hinweg.

Tool-Nutzung & APIs

Funktionsaufrufe, strukturierte Ausgabe, Code-Ausführung, Google Search Grounding, Kontext-Caching — alles nativ unterstützt.

Eingabe-Modalitäten

Text, Bilder, Audio, Video, PDF — nativ multimodal, keine Vorverarbeitung erforderlich.

Nativ multimodal — ein Modell, alle Eingabetypen

Gemini 3.5 Flash verarbeitet Text, Bilder, Audio und Video nativ — keine separaten Pipelines, kein Zusammensetzen mehrerer Modelle.

Text & PDF

Verarbeitet Dokumente mit Millionen von Wörtern mit hoher Genauigkeit. Verarbeitet komplexe Tabellen, Code und strukturierte Daten in einem einzigen Durchlauf.

Bildverständnis

MMMU-Pro Score von 83,6 % — weltweiter #1. Analysiert Architekturpläne, Diagramme und detaillierte visuelle Inhalte in Echtzeit.

Videoanalyse

Unterstützt bis zu 1 Stunde Videoeingabe. Erfasst wichtige Änderungen Bild für Bild für Zusammenfassung, Frage-Antwort und Inhaltsanalyse.

Audioverarbeitung

Erkennt Emotionen, Umgebungsgeräusche und mehrsprachige Gespräche. Ermöglicht Echtzeit-Übersetzung und Sprachassistenten.

Überall verfügbar, wo Sie entwickeln

Gemini 3.5 Flash ist tief in Googles Entwickler- und Verbraucher-Ökosystem integriert — vom API-Zugang bis zum Standardmodell, das Milliarden von Nutzern antreibt.

Entwicklerplattformen

  • Gemini API
  • Google AI Studio
  • Android Studio
  • Google Antigravity
  • Gemini Enterprise Agent Platform (Vertex AI)

Verbraucherprodukte

  • Gemini App — globales Standardmodell
  • Google Search KI-Modus — Standardmodell
  • Gemini Spark — persönlicher KI-Agent
  • Felo AI — kostenloser Zugang über Suche & Playground
Intelligenz-vs-Kosten-Diagramm, das Gemini 3.5 Flash als das Frontier-Modell mit dem besten Preis-Leistungs-Verhältnis zeigt

Gemini 3.5 Flash führt die Intelligenz-vs-Kosten-Grenze an. Weniger als die Hälfte der Kosten vergleichbarer Modelle bei gleichwertiger Aufgabenleistung. Quelle: Artificial Analysis, Mai 2026.

Wer Gemini 3.5 Flash nutzt

Von einzelnen Entwicklern bis hin zu Enterprise-Teams — Gemini 3.5 Flash passt überall dort, wo schnelle, leistungsfähige KI im großen Maßstab gefragt ist.

Agentisches Coding

Terminal-Bench 2.1 Score von 76,2 % bei niedriger Latenz. Coding-Agenten schließen Aufgaben schneller mit weniger Logiklücken ab — iterative Code-Generierung, Debugging und A/B-Tests mit Flash-Geschwindigkeit.

Finanz- und Steuerverarbeitung

Ein ganzes Jahr Verträge und Abrechnungen in einer Anfrage verarbeiten. Xero nutzt es für die Verarbeitung von Steuerformularen; Ramp setzt seine multimodale OCR für komplexe Rechnungsverarbeitung ein.

Enterprise-Agenten-Plattformen

Salesforce integriert es in Agentforce, um die Bereitstellung von Enterprise-Agenten zu beschleunigen. Databricks nutzt es zur Überwachung von Echtzeitdaten und zur autonomen Diagnose von Problemen.

Langfristige Geschäftsaufgaben

Shopify nutzt es für Händlerwachstumsprognosen. Führt zuverlässig komplexe Workflows über Stunden oder Wochen aus — die Art von Aufgaben, die früher bei jedem Schritt menschliche Aufsicht erforderten.

Multimodale Inhaltsanalyse

Videos, Bilder und Dokumente gemeinsam in einer einzigen Anfrage analysieren. CharXiv Reasoning Score von 84,2 % bedeutet präzise Erkenntnisse aus komplexen Diagrammen und gemischten Medieninhalten.

Consumer-KI-Produkte

Jetzt das Standardmodell in der Gemini-App und im Google Search AI Mode — für Milliarden monatlich aktiver Nutzer. Der Fast Mode liefert nahezu sofortige Antworten auf Mobilgeräten.

Was Teams berichten

Die Langkontext-Leistung ist außergewöhnlich für die Verarbeitung großer unstrukturierter multimodaler Datensätze.

Bridgewater Associates

Wir haben Gemini 3.5 Flash in Agentforce integriert, um die Bereitstellung von Enterprise-Agenten zu beschleunigen — das Verhältnis von Geschwindigkeit zu Leistungsfähigkeit ist einzigartig.

Salesforce

Gemini 3.5 Flash ermöglicht es uns, Echtzeitinformationen zu überwachen und Probleme in unseren agentischen Workflows autonom zu diagnostizieren.

Databricks

Zwei Wege, Gemini 3.5 Flash auf Felo zu nutzen

Felo AI Search

Felo AI Search öffnen und das Gemini 3.5 Flash Modell auswählen. Fragen stellen, das Web mit KI durchsuchen und zitierte Antworten erhalten — angetrieben von Googles schnellstem Frontier-Modell.

Felo AI Search öffnen

Felo LLM Playground

Felo LLM Playground öffnen, Gemini 3.5 Flash auswählen und loschatten. Ausgaben mehrerer Modelle nebeneinander vergleichen und den Geschwindigkeits- und Reasoning-Unterschied direkt erleben.

Playground öffnen

Häufig gestellte Fragen

Gemini 3.5 Flash jetzt kostenlos testen

Vorgestellt auf Google I/O 2026. Felo AI öffnen und Googles schnellstes Frontier-Modell noch heute nutzen.

Gemini 3.5 Flash auf Felo öffnen

Kostenlos nutzbar — keine Kreditkarte erforderlich