正式发布 · Google I/O 2026 · 2026 年 5 月 19 日

Gemini 3.5 Flash — 免费使用闪电速度,Pro 级智能体 AI

Gemini 3.5 Flash 是 Google DeepMind 最快的前沿模型,于 2026 年 5 月 19 日正式发布。它具备 Pro 级推理深度,支持 100 万 token 上下文窗口,运行速度比同类前沿模型快 4 倍,成本不足其一半 — 立即在 Felo AI 免费体验。

在 Felo AI 免费使用 — 无需信用卡

81.2%
MMMU-Pro 得分
全球多模态基准测试第一
$0.50
API 输入价格
$1.50 / 100 万 token
0.2s
速度优势
比同类模型快 4 倍
1M
上下文窗口
单次请求 token 数

Gemini 3.5 Flash 的核心优势

首款在智能体和编程基准测试上超越自家 Pro 前代的 Flash 模型 — 同时保持 Flash 级别的速度与成本。

速度图标

专为智能体工作流打造

Gemini 3.5 Flash 是谷歌迄今最强的智能体与编程模型。它能可靠执行持续数小时乃至数周的长周期任务,处理多步工具调用,并通过谷歌的 Antigravity 框架协调子智能体 — 让大规模智能体系统在经济上真正可行。

思考图标

动态思考 — 可配置推理深度

思考模式默认开启,并新增 thinking_level 参数(默认值:medium)。Gemini 3.5 Flash 在响应前进行内部多步规划,在数学、编程和逻辑任务上的推理深度可媲美旗舰 Pro 模型 — 且推理深度可按请求灵活调节。

上下文图标

100 万 token 上下文窗口

单次请求即可处理完整代码库、数小时视频或一整年的金融合同。100 万输入 token 配合 6.4 万输出 token,复杂任务完整处理,不会截断任何内容。MRCR v2 长上下文得分 26.6%,领先所有同类模型。

成本图标

速度快 4 倍,成本不足一半

Gemini 3.5 Flash 比同类前沿模型快 4 倍,成本不足其一半。每百万输入 token 仅需 $1.50,上下文缓存低至 $0.15/M,全天候运行 AI 智能体切实可行,而不仅仅是技术上可能。

全新帕累托前沿:速度 × 智能

长期以来,速度越快意味着能力越弱。Gemini 3.5 Flash 打破了这一权衡 — 它位于速度-智能曲线的右上角,超越了那些成本高出数倍的模型。

智能与速度对比图,显示 Gemini 3.5 Flash 处于帕累托前沿

Gemini 3.5 Flash 在前沿模型中引领智能-速度帕累托前沿。数据来源:Artificial Analysis,2026 年 5 月。

性能基准测试

Gemini 3.5 Flash vs Claude Opus 4.7 vs GPT-5.5

官方模型卡测试结果。Gemini 3.5 Flash 在多模态理解、智能体工具调用和长上下文检索方面全面领先。

基准测试
Gemini 3.5 Flash
Claude Opus 4.7
GPT-5.5
MMMU-Pro
83.6%
75.2%
81.2%
CharXiv Reasoning
84.2%
82.1%
84.1%
MCP Atlas
83.6%
79.1%
75.3%
Terminal-Bench 2.1
76.2%
66.1%
78.2%
OSWorld-Verified
78.4%
78.0%
78.7%
MRCR v2 (1M ctx)
26.6%

数据来源:Gemini 3.5 Flash 模型卡 — Google DeepMind,2026 年 5 月。

技术规格

将 Gemini 3.5 Flash 集成到您的应用之前,您需要了解的一切。

上下文窗口

1,048,576 tokens 输入
65,536 tokens 输出

API 定价

$1.50 / 100 万输入 tokens
$9.00 / 100 万输出 tokens
$0.15 / 100 万缓存 tokens

正式发布

2026 年 5 月 19 日 — Google I/O

知识截止日期

2026 年 1 月

思考模式

默认开启。可通过 thinking_level 配置:low / medium(默认)/ high。Thought Preservation 在多轮对话中保留推理过程。

工具调用与 API

函数调用、结构化输出、代码执行、Google 搜索接地、上下文缓存 — 全部原生支持。

输入模态

文本、图像、音频、视频、PDF — 原生多模态,无需预处理。

原生多模态 — 一个模型,处理所有输入类型

Gemini 3.5 Flash 原生处理文本、图像、音频和视频 — 无需独立处理流程,无需拼接多个模型。

文本与 PDF

高精度解析百万字文档,单次处理复杂表格、代码和结构化数据,准确无误。

图像理解

MMMU-Pro 得分 83.6% — 全球第一。实时分析建筑蓝图、图表和复杂视觉内容。

视频分析

支持最长 1 小时视频输入,逐帧捕捉关键变化,适用于摘要生成、问答和内容分析。

音频处理

识别情绪、环境音和多语言对话,支持实时翻译和语音助手场景。

随处可用,无缝构建

Gemini 3.5 Flash 深度集成于 Google 的开发者和消费者生态系统 — 从 API 访问到为数十亿用户提供服务的默认模型。

开发者平台

  • Gemini API
  • Google AI Studio
  • Android Studio
  • Google Antigravity
  • Gemini 企业智能体平台(Vertex AI)

消费级产品

  • Gemini 应用 — 全球默认模型
  • Google 搜索 AI 模式 — 默认模型
  • Gemini Spark — 个人 AI 智能体
  • Felo AI — 通过搜索与 Playground 免费使用
智能与成本对比图,显示 Gemini 3.5 Flash 是性价比最高的前沿模型

Gemini 3.5 Flash 引领智能-成本前沿。同等任务性能下,成本不足同类模型的一半。数据来源:Artificial Analysis,2026 年 5 月。

谁在使用 Gemini 3.5 Flash

从个人开发者到企业团队,Gemini 3.5 Flash 适用于任何需要大规模快速、高能 AI 的场景。

智能体编程

Terminal-Bench 2.1 得分 76.2%,延迟极低。编程智能体以 Flash 速度更快完成任务,逻辑漏洞更少 — 支持迭代代码生成、调试和 A/B 测试。

财务与税务处理

单次请求处理全年合同和报表。Xero 用它处理 1099 税务表单;Ramp 用其多模态 OCR 能力处理复杂发票。

企业智能体平台

Salesforce 将其集成到 Agentforce 以加速企业智能体部署;Databricks 用它实时监控数据并自主诊断问题。

长周期业务任务

Shopify 用它进行商家增长预测。可靠执行持续数小时乃至数周的复杂工作流 — 此前每一步都需要人工监督的那类任务。

多模态内容分析

单次请求同时分析视频、图像和文档。CharXiv 推理得分 84.2%,能从复杂图表和混合媒体内容中精准提取洞察。

消费级 AI 产品

现已成为 Gemini 应用和 Google 搜索 AI 模式的默认模型,服务数十亿月活用户。快速模式在移动端实现近乎即时的响应。

用户怎么说

其长上下文性能在处理大规模非结构化多模态数据集时表现卓越。

Bridgewater Associates

我们将 Gemini 3.5 Flash 集成到 Agentforce 以加速企业智能体部署 — 这种速度与能力的比值是我们前所未见的。

Salesforce

Gemini 3.5 Flash 让我们能够在智能体工作流中实时监控信息并自主诊断问题。

Databricks

在 Felo 上使用 Gemini 3.5 Flash 的两种方式

Felo AI 搜索

打开 Felo AI 搜索,选择 Gemini 3.5 Flash 模型。提问、用 AI 搜索网络,获取带引用的答案 — 由谷歌最快前沿模型驱动。

打开 Felo AI 搜索

Felo LLM 对话广场

打开 Felo LLM 对话广场,选择 Gemini 3.5 Flash,开始对话。并排对比多个模型的输出,亲身感受速度与推理能力的差异。

打开对话广场

常见问题

立即免费体验 Gemini 3.5 Flash

于 Google I/O 2026 发布。打开 Felo AI,立即使用谷歌最快前沿模型。

在 Felo 上使用 Gemini 3.5 Flash

免费使用 — 无需信用卡