Claude Opus 4.8 发布:Anthropic 迄今最强大的模型
Anthropic 刚刚发布了 Claude Opus 4.8 —— 更快、更诚实,在代理任务上表现更出色。以下是所有新变化,以及它为何对开发者意义重大。

Anthropic 本周发布了 Claude Opus 4.8。这是其迄今公开提供的最强大模型,在 Opus 4.7 的基础上针对编码、推理、代理任务和诚实度进行了全面提升。价格保持不变:输入每百万个 token 收费 5 美元,输出每百万个 token 收费 25 美元。
下面是此次更新的变化,以及它对开发者带来的意义。
Opus 4.7 以来有什么变化?
以下是具体更新内容:
1. 更好的判断力与诚实度
Opus 4.8 明显更不容易做出无依据的断言,也更不容易忽略代码缺陷。Anthropic 的评估结果显示,与上一版本相比,它 减少约四倍 的概率让自己生成的有缺陷代码通过检查。这种提升在依赖模型自主运行时尤其关键。
早期测试者反馈称,它能提出正确的问题,发现自身错误,并在计划不合理时提出质疑。
2. 更强的代理执行能力

在 Anthropic 的 Super-Agent 基准测试中,Opus 4.8 是唯一能完整完成所有案例的模型,超越了此前的 Opus 系列和 GPT-5.5,且在相同成本下表现更佳。在 CursorBench 测试中,它在所有努力级别上都优于之前的版本,使用更少的工具调用步骤实现相同的智能表现。
它也是 Anthropic 测试中在计算机操作与浏览器代理任务上的表现最强的模型,在 Online-Mind2Web 上得分 84%。
3. 更快、更高效的工具调用
模型在任务需要时更少漏调用工具解决方案,这是 Opus 4.7 的一个已知痛点。长链式代理任务在上下文压缩后也能保持更稳定的专注度。
4. 真正“自适应”的思维模式
启用自适应思维后,Opus 4.8 能在每轮对话中判断是否需要推理。简单查询直接给出答案,复杂问题则会在回答前进行推理。与 Opus 4.7 相比,浪费的 token 更少。
值得关注的新功能
努力度控制 —— 现已支持所有方案
模型选择器旁新增“努力”控制选项,用户可选择 Claude 在生成回答时投入的努力程度。Opus 4.8 的默认值为 high,此外还可选择 extra 和 max,以应对更复杂任务。Claude Code 的速率限制也已相应提高,以支持更多 token 消耗。
快速模式 —— 速度提升 2.5 倍,成本更低
快速模式现作为研究预览版本在 Claude API 提供。输出速率可提升至 2.5 倍,成本比以往模型低三倍。
对话中途的系统消息
Messages API 现在支持在消息数组中插入 role: "system" 项。这样你可在任务执行中途更新 Claude 的指令,而不会破坏提示缓存 —— 尤其在权限或上下文发生变化的代理循环中十分有用。
更低的提示缓存下限
最小可缓存提示长度已降至 1,024 个 token。那些在 Opus 4.7 中过短而无法缓存的提示,现在无需修改代码即可生成缓存条目。
实际性能基准
| 基准测试 | Opus 4.8 表现 |
|---|---|
| Super-Agent | 完成所有案例(唯一做到的模型) |
| CursorBench | 在各个努力级别上均优于历代 Opus 模型 |
| Online-Mind2Web | 84%(测试中最强模型) |
| 法律代理基准测试 | 史上最高分;首个突破 10% 总体分数的模型 |

Opus 4.8 在需要长期自主性的领域表现最强 —— 包括编码代理、研究代理、法律流程以及企业知识型工作。
价格 —— 与 Opus 4.7 保持一致
| 模式 | 输入 | 输出 |
|---|---|---|
| 标准 | $5 / 1M tokens | $25 / 1M tokens |
| 快速 | $10 / 1M tokens | $50 / 1M tokens |
价格与 Opus 4.7 相同,但性能更佳。API 模型 ID 为 claude-opus-4-8,支持 100 万 token 上下文窗口与最高 128k 输出 token。
接下来:Mythos 级模型
Anthropic 还暗示正在研发“比 Opus 更智能”的新级别模型。目前已有少数组织通过 Project Glasswing 使用 Claude Mythos Preview 进行网络安全研究。公司计划在未来几周向所有客户开放 Mythos 级模型,在保护机制完善后正式上线。
模型多样性为何重要
如今几乎每周都有新 AI 模型发布。对构建在这类模型之上的开发者来说,关键问题不在于哪个模型“最好”,而在于哪一个最适合当前任务,以及如何在模型之间无缝切换。
这正是 Felo AI 所解决的问题。除了基于先进模型的实时搜索外,Felo 还提供一个 LLM Playground,可在同一界面调用、测试并比较多款主流模型的输出。无需管理多个 API 密钥,也无需在不同控制台间来回切换。只需选择模型、输入提示,即可查看表现。
无论你是在评估适合自己流程的模型,还是单纯想了解当前生态,将所有模型集中在一个界面中,都能让比较过程轻松许多。
免费试用 Felo AI → https://felo.ai
本文还提供以下语言版本:English、日本語、한국어、繁體中文、हिन्दी、Français、العربية、Русский、اردو、Bahasa Indonesia、Deutsch、Tiếng Việt、Türkçe、Italiano、ไทย、Español、বাংলা、Português。