Claude Opus 4.8 发布：Anthropic 迄今最强大的模型

May 29, 2026 · 阅读需 8 分钟

Committed to answers at your fingertips

Anthropic 刚刚发布了 Claude Opus 4.8 —— 更快、更诚实，在代理任务上表现更出色。以下是所有新变化，以及它为何对开发者意义重大。

Claude Opus 4.8 发布封面图

Anthropic 本周发布了 Claude Opus 4.8。这是其迄今公开提供的最强大模型，在 Opus 4.7 的基础上针对编码、推理、代理任务和诚实度进行了全面提升。价格保持不变：输入每百万个 token 收费 5 美元，输出每百万个 token 收费 25 美元。

下面是此次更新的变化，以及它对开发者带来的意义。

Opus 4.7 以来有什么变化？

以下是具体更新内容：

1. 更好的判断力与诚实度

Opus 4.8 明显更不容易做出无依据的断言，也更不容易忽略代码缺陷。Anthropic 的评估结果显示，与上一版本相比，它 减少约四倍 的概率让自己生成的有缺陷代码通过检查。这种提升在依赖模型自主运行时尤其关键。

早期测试者反馈称，它能提出正确的问题，发现自身错误，并在计划不合理时提出质疑。

2. 更强的代理执行能力

AI 代理基准测试对比图，显示 Opus 4.8 在多个测试类别中领先

在 Anthropic 的 Super-Agent 基准测试中，Opus 4.8 是唯一能完整完成所有案例的模型，超越了此前的 Opus 系列和 GPT-5.5，且在相同成本下表现更佳。在 CursorBench 测试中，它在所有努力级别上都优于之前的版本，使用更少的工具调用步骤实现相同的智能表现。

它也是 Anthropic 测试中在计算机操作与浏览器代理任务上的表现最强的模型，在 Online-Mind2Web 上得分 84%。

3. 更快、更高效的工具调用

模型在任务需要时更少漏调用工具解决方案，这是 Opus 4.7 的一个已知痛点。长链式代理任务在上下文压缩后也能保持更稳定的专注度。

4. 真正“自适应”的思维模式

启用自适应思维后，Opus 4.8 能在每轮对话中判断是否需要推理。简单查询直接给出答案，复杂问题则会在回答前进行推理。与 Opus 4.7 相比，浪费的 token 更少。

值得关注的新功能

努力度控制 —— 现已支持所有方案

模型选择器旁新增“努力”控制选项，用户可选择 Claude 在生成回答时投入的努力程度。Opus 4.8 的默认值为 high，此外还可选择 extra 和 max，以应对更复杂任务。Claude Code 的速率限制也已相应提高，以支持更多 token 消耗。

快速模式 —— 速度提升 2.5 倍，成本更低

快速模式现作为研究预览版本在 Claude API 提供。输出速率可提升至 2.5 倍，成本比以往模型低三倍。

对话中途的系统消息

Messages API 现在支持在消息数组中插入 role: "system" 项。这样你可在任务执行中途更新 Claude 的指令，而不会破坏提示缓存 —— 尤其在权限或上下文发生变化的代理循环中十分有用。

更低的提示缓存下限

最小可缓存提示长度已降至 1,024 个 token。那些在 Opus 4.7 中过短而无法缓存的提示，现在无需修改代码即可生成缓存条目。

实际性能基准

基准测试	Opus 4.8 表现
Super-Agent	完成所有案例（唯一做到的模型）
CursorBench	在各个努力级别上均优于历代 Opus 模型
Online-Mind2Web	84%（测试中最强模型）
法律代理基准测试	史上最高分；首个突破 10% 总体分数的模型

AI 代理自主处理代码库及工作流程的概念图

Opus 4.8 在需要长期自主性的领域表现最强 —— 包括编码代理、研究代理、法律流程以及企业知识型工作。

价格 —— 与 Opus 4.7 保持一致

模式	输入	输出
标准	$5 / 1M tokens	$25 / 1M tokens
快速	$10 / 1M tokens	$50 / 1M tokens

价格与 Opus 4.7 相同，但性能更佳。API 模型 ID 为 claude-opus-4-8，支持 100 万 token 上下文窗口与最高 128k 输出 token。

接下来：Mythos 级模型

Anthropic 还暗示正在研发“比 Opus 更智能”的新级别模型。目前已有少数组织通过 Project Glasswing 使用 Claude Mythos Preview 进行网络安全研究。公司计划在未来几周向所有客户开放 Mythos 级模型，在保护机制完善后正式上线。

模型多样性为何重要

如今几乎每周都有新 AI 模型发布。对构建在这类模型之上的开发者来说，关键问题不在于哪个模型“最好”，而在于哪一个最适合当前任务，以及如何在模型之间无缝切换。

这正是 Felo AI 所解决的问题。除了基于先进模型的实时搜索外，Felo 还提供一个 LLM Playground，可在同一界面调用、测试并比较多款主流模型的输出。无需管理多个 API 密钥，也无需在不同控制台间来回切换。只需选择模型、输入提示，即可查看表现。

无论你是在评估适合自己流程的模型，还是单纯想了解当前生态，将所有模型集中在一个界面中，都能让比较过程轻松许多。

免费试用 Felo AI → https://felo.ai

本文还提供以下语言版本：English、日本語、한국어、繁體中文、हिन्दी、Français、العربية、Русский、اردو、Bahasa Indonesia、Deutsch、Tiếng Việt、Türkçe、Italiano、ไทย、Español、বাংলা、Português。

Opus 4.7 以来有什么变化？​

1. 更好的判断力与诚实度​

2. 更强的代理执行能力​

3. 更快、更高效的工具调用​

4. 真正“自适应”的思维模式​

值得关注的新功能​

努力度控制 —— 现已支持所有方案​

快速模式 —— 速度提升 2.5 倍，成本更低​

对话中途的系统消息​

更低的提示缓存下限​

实际性能基准​

价格 —— 与 Opus 4.7 保持一致​

接下来：Mythos 级模型​

模型多样性为何重要​