Disponibilité générale · Lancé à Google I/O 2026 · 19 mai 2026

Gemini 3.5 Flash — GratuitIA agentique de niveau Pro à la vitesse de l'éclair

Gemini 3.5 Flash est le modèle frontier le plus rapide de Google DeepMind, lancé le 19 mai 2026. Il offre une profondeur de raisonnement de niveau Pro avec une fenêtre de contexte de 1M tokens et s'exécute 4× plus vite que les modèles frontier comparables à moins de la moitié du coût — essayez-le gratuitement sur Felo AI dès maintenant.

Accès gratuit sur Felo AI — aucune carte bancaire requise

81.2%
Score MMMU-Pro
N°1 mondial sur le benchmark multimodal
$0.50
Prix d'entrée
1,50 $ / 1M tokens via API
0.2s
Avantage de vitesse
4× plus rapide que les modèles comparables
1M
Fenêtre de contexte
Tokens par requête

Ce qui distingue Gemini 3.5 Flash

Le premier modèle Flash à surpasser son prédécesseur Pro sur les benchmarks agentiques et de coding — tout en maintenant la vitesse et le coût caractéristiques de Flash.

Icône vitesse

Conçu pour les workflows agentiques

Gemini 3.5 Flash est le modèle agentique et de coding le plus performant de Google à ce jour. Il exécute de manière fiable des tâches à long horizon durant des heures ou des semaines, gère l'utilisation d'outils en plusieurs étapes et coordonne des sous-agents via le framework Antigravity de Google — rendant les systèmes agentiques à grande échelle économiquement viables.

Icône réflexion

Thinking dynamique — profondeur de raisonnement configurable

Le thinking est activé par défaut avec un nouveau paramètre thinking_level (valeur par défaut : medium). Gemini 3.5 Flash effectue une planification interne en plusieurs étapes avant de répondre, offrant une profondeur de raisonnement qui rivalise avec les modèles Pro phares sur les tâches de mathématiques, de coding et de logique — avec une profondeur ajustable par requête.

Icône contexte

Fenêtre de contexte de 1M tokens

Intégrez une base de code entière, des heures de vidéo ou une année de contrats financiers en une seule requête. La fenêtre de 1M tokens en entrée combinée à 64K tokens en sortie garantit que les tâches complexes restent complètes — rien n'est tronqué. Le score MRCR v2 de 26,6 % pour les longs contextes est le meilleur parmi les modèles comparables.

Icône coût

4× plus rapide, moins de la moitié du coût

Gemini 3.5 Flash s'exécute 4× plus vite que les modèles frontier comparables à moins de la moitié du coût. À 1,50 $ par million de tokens en entrée avec la mise en cache de contexte à 0,15 $/M, faire tourner des agents IA en continu devient une option concrète — pas seulement techniquement possible.

La nouvelle frontière de Pareto : Vitesse × Intelligence

Pendant des années, plus rapide signifiait moins capable. Gemini 3.5 Flash brise ce compromis — il se place en haut à droite de la courbe vitesse-intelligence, surpassant des modèles qui coûtent bien plus cher.

Graphique Intelligence vs Vitesse montrant Gemini 3.5 Flash à la frontière de Pareto

Gemini 3.5 Flash mène la frontière de Pareto intelligence-vs-vitesse parmi les modèles frontier. Source : Artificial Analysis, mai 2026.

Benchmarks de performance

Gemini 3.5 Flash vs Claude Opus 4.7 vs GPT-5.5

Résultats officiels de la fiche modèle. Gemini 3.5 Flash est en tête pour la compréhension multimodale, l'utilisation d'outils agentiques et la récupération en long contexte.

Benchmark
Gemini 3.5 Flash
Claude Opus 4.7
GPT-5.5
MMMU-Pro
83.6%
75.2%
81.2%
CharXiv Reasoning
84.2%
82.1%
84.1%
MCP Atlas
83.6%
79.1%
75.3%
Terminal-Bench 2.1
76.2%
66.1%
78.2%
OSWorld-Verified
78.4%
78.0%
78.7%
MRCR v2 (1M ctx)
26.6%

Source : Fiche modèle Gemini 3.5 Flash — Google DeepMind, mai 2026.

Spécifications techniques

Tout ce que vous devez savoir avant d'intégrer Gemini 3.5 Flash dans votre application.

Fenêtre de contexte

1 048 576 tokens en entrée
65 536 tokens en sortie

Tarifs API

1,50 $ / 1M tokens en entrée
9,00 $ / 1M tokens en sortie
0,15 $ / 1M tokens mis en cache

Disponibilité générale

19 mai 2026 — Google I/O

Date limite des connaissances

Janvier 2026

Mode de réflexion

Activé par défaut. Configurable via thinking_level : low / medium (défaut) / high. Thought Preservation conserve le raisonnement sur plusieurs tours de conversation.

Utilisation d'outils et APIs

Appels de fonctions, sortie structurée, exécution de code, ancrage Google Search, mise en cache de contexte — tout est pris en charge nativement.

Modalités d'entrée

Texte, images, audio, vidéo, PDF — multimodal natif, aucun prétraitement requis.

Nativement multimodal — un seul modèle, tous les types d'entrée

Gemini 3.5 Flash traite nativement le texte, les images, l'audio et la vidéo — sans pipelines séparés ni assemblage de plusieurs modèles.

Texte & PDF

Analyse des documents de plusieurs millions de mots avec une grande précision. Gère les tableaux complexes, le code et les données structurées en une seule passe.

Compréhension d'images

Score MMMU-Pro de 83,6 % — n°1 mondial. Analyse les plans architecturaux, les graphiques et les contenus visuels détaillés en temps réel.

Analyse vidéo

Prend en charge jusqu'à 1 heure de vidéo en entrée. Capture les changements clés image par image pour la synthèse, les questions-réponses et l'analyse de contenu.

Traitement audio

Reconnaît les émotions, les sons ambiants et les conversations multilingues. Alimente la traduction en temps réel et les assistants vocaux.

Disponible partout où vous développez

Gemini 3.5 Flash est profondément intégré dans l'écosystème développeur et grand public de Google — de l'accès API au modèle par défaut qui alimente des milliards d'utilisateurs.

Plateformes développeurs

  • Gemini API
  • Google AI Studio
  • Android Studio
  • Google Antigravity
  • Plateforme d'agents enterprise Gemini (Vertex AI)

Produits grand public

  • Application Gemini — modèle par défaut mondial
  • Mode IA de Google Search — modèle par défaut
  • Gemini Spark — agent IA personnel
  • Felo AI — accès gratuit via recherche et playground
Graphique Intelligence vs Coût montrant Gemini 3.5 Flash comme le modèle frontier offrant le meilleur rapport qualité-prix

Gemini 3.5 Flash mène la frontière intelligence-vs-coût. Moins de la moitié du coût des modèles comparables pour des performances équivalentes. Source : Artificial Analysis, mai 2026.

Qui utilise Gemini 3.5 Flash

Des développeurs indépendants aux équipes enterprise, Gemini 3.5 Flash s'adapte partout où vous avez besoin d'une IA rapide et performante à grande échelle.

Coding agentique

Score Terminal-Bench 2.1 de 76,2 % avec une faible latence. Les agents de coding accomplissent les tâches plus vite et avec moins de lacunes logiques — génération de code itérative, débogage et tests A/B à la vitesse Flash.

Traitement financier et fiscal

Traitez une année entière de contrats et de relevés en une seule requête. Xero l'utilise pour gérer les formulaires fiscaux 1099 ; Ramp utilise son OCR multimodal pour le traitement complexe de factures.

Plateformes d'agents enterprise

Salesforce l'intègre dans Agentforce pour accélérer le déploiement d'agents enterprise. Databricks l'utilise pour surveiller les données en temps réel et diagnostiquer les problèmes de manière autonome.

Tâches métier à long horizon

Shopify l'utilise pour les prévisions de croissance des marchands. Il exécute de manière fiable des workflows complexes durant des heures ou des semaines — le type de tâches qui nécessitait auparavant une supervision humaine à chaque étape.

Analyse de contenu multimodal

Analysez vidéos, images et documents ensemble en une seule requête. Le score CharXiv Reasoning de 84,2 % signifie qu'il extrait des insights de graphiques complexes et de contenus mixtes avec précision.

Produits IA grand public

Désormais le modèle par défaut dans l'application Gemini et le mode IA de Google Search — servant des milliards d'utilisateurs actifs mensuels. Le Fast Mode offre des réponses quasi instantanées sur mobile.

Ce que disent les équipes

Ses performances sur les longs contextes sont exceptionnelles pour le traitement de grands ensembles de données multimodales non structurées.

Bridgewater Associates

Nous avons intégré Gemini 3.5 Flash dans Agentforce pour accélérer le déploiement d'agents enterprise — le rapport vitesse/capacité est sans précédent.

Salesforce

Gemini 3.5 Flash nous permet de surveiller les informations en temps réel et de diagnostiquer les problèmes de manière autonome dans nos workflows agentiques.

Databricks

Deux façons d'utiliser Gemini 3.5 Flash sur Felo

Felo AI Search

Ouvrez Felo AI Search et sélectionnez le modèle Gemini 3.5 Flash. Posez des questions, effectuez des recherches web avec l'IA et obtenez des réponses sourcées — propulsées par le modèle frontier le plus rapide de Google.

Ouvrir Felo AI Search

Felo LLM Playground

Ouvrez Felo LLM Playground, sélectionnez Gemini 3.5 Flash et commencez à discuter. Comparez les sorties de plusieurs modèles côte à côte pour constater la différence de vitesse et de raisonnement par vous-même.

Ouvrir le Playground

Questions fréquentes

Essayez Gemini 3.5 Flash gratuitement — maintenant

Lancé à Google I/O 2026. Ouvrez Felo AI et commencez à utiliser le modèle frontier le plus rapide de Google dès aujourd'hui.

Ouvrir Gemini 3.5 Flash sur Felo

Accès gratuit — aucune carte bancaire requise