Skip to main content

Claude Opus 4.8 发布:Anthropic 迄今最强大的模型

· 阅读需 8 分钟
Felo Search Tips Buddy
Committed to answers at your fingertips

Anthropic 刚刚发布了 Claude Opus 4.8 —— 更快、更诚实,在代理任务上表现更出色。以下是所有新变化,以及它为何对开发者意义重大。

Claude Opus 4.8 发布封面图

Anthropic 本周发布了 Claude Opus 4.8。这是其迄今公开提供的最强大模型,在 Opus 4.7 的基础上针对编码、推理、代理任务和诚实度进行了全面提升。价格保持不变:输入每百万个 token 收费 5 美元,输出每百万个 token 收费 25 美元。

下面是此次更新的变化,以及它对开发者带来的意义。


Opus 4.7 以来有什么变化?

以下是具体更新内容:

1. 更好的判断力与诚实度

Opus 4.8 明显更不容易做出无依据的断言,也更不容易忽略代码缺陷。Anthropic 的评估结果显示,与上一版本相比,它 减少约四倍 的概率让自己生成的有缺陷代码通过检查。这种提升在依赖模型自主运行时尤其关键。

早期测试者反馈称,它能提出正确的问题,发现自身错误,并在计划不合理时提出质疑。

2. 更强的代理执行能力

AI 代理基准测试对比图,显示 Opus 4.8 在多个测试类别中领先

在 Anthropic 的 Super-Agent 基准测试中,Opus 4.8 是唯一能完整完成所有案例的模型,超越了此前的 Opus 系列和 GPT-5.5,且在相同成本下表现更佳。在 CursorBench 测试中,它在所有努力级别上都优于之前的版本,使用更少的工具调用步骤实现相同的智能表现。

它也是 Anthropic 测试中在计算机操作与浏览器代理任务上的表现最强的模型,在 Online-Mind2Web 上得分 84%

3. 更快、更高效的工具调用

模型在任务需要时更少漏调用工具解决方案,这是 Opus 4.7 的一个已知痛点。长链式代理任务在上下文压缩后也能保持更稳定的专注度。

4. 真正“自适应”的思维模式

启用自适应思维后,Opus 4.8 能在每轮对话中判断是否需要推理。简单查询直接给出答案,复杂问题则会在回答前进行推理。与 Opus 4.7 相比,浪费的 token 更少。


值得关注的新功能

努力度控制 —— 现已支持所有方案

模型选择器旁新增“努力”控制选项,用户可选择 Claude 在生成回答时投入的努力程度。Opus 4.8 的默认值为 high,此外还可选择 extramax,以应对更复杂任务。Claude Code 的速率限制也已相应提高,以支持更多 token 消耗。

快速模式 —— 速度提升 2.5 倍,成本更低

快速模式现作为研究预览版本在 Claude API 提供。输出速率可提升至 2.5 倍,成本比以往模型低三倍。

对话中途的系统消息

Messages API 现在支持在消息数组中插入 role: "system" 项。这样你可在任务执行中途更新 Claude 的指令,而不会破坏提示缓存 —— 尤其在权限或上下文发生变化的代理循环中十分有用。

更低的提示缓存下限

最小可缓存提示长度已降至 1,024 个 token。那些在 Opus 4.7 中过短而无法缓存的提示,现在无需修改代码即可生成缓存条目。


实际性能基准

基准测试Opus 4.8 表现
Super-Agent完成所有案例(唯一做到的模型)
CursorBench在各个努力级别上均优于历代 Opus 模型
Online-Mind2Web84%(测试中最强模型)
法律代理基准测试史上最高分;首个突破 10% 总体分数的模型

AI 代理自主处理代码库及工作流程的概念图

Opus 4.8 在需要长期自主性的领域表现最强 —— 包括编码代理、研究代理、法律流程以及企业知识型工作。


价格 —— 与 Opus 4.7 保持一致

模式输入输出
标准$5 / 1M tokens$25 / 1M tokens
快速$10 / 1M tokens$50 / 1M tokens

价格与 Opus 4.7 相同,但性能更佳。API 模型 ID 为 claude-opus-4-8,支持 100 万 token 上下文窗口与最高 128k 输出 token。


接下来:Mythos 级模型

Anthropic 还暗示正在研发“比 Opus 更智能”的新级别模型。目前已有少数组织通过 Project Glasswing 使用 Claude Mythos Preview 进行网络安全研究。公司计划在未来几周向所有客户开放 Mythos 级模型,在保护机制完善后正式上线。


模型多样性为何重要

如今几乎每周都有新 AI 模型发布。对构建在这类模型之上的开发者来说,关键问题不在于哪个模型“最好”,而在于哪一个最适合当前任务,以及如何在模型之间无缝切换。

这正是 Felo AI 所解决的问题。除了基于先进模型的实时搜索外,Felo 还提供一个 LLM Playground,可在同一界面调用、测试并比较多款主流模型的输出。无需管理多个 API 密钥,也无需在不同控制台间来回切换。只需选择模型、输入提示,即可查看表现。

无论你是在评估适合自己流程的模型,还是单纯想了解当前生态,将所有模型集中在一个界面中,都能让比较过程轻松许多。


免费试用 Felo AI → https://felo.ai


本文还提供以下语言版本:English日本語한국어繁體中文हिन्दीFrançaisالعربيةРусскийاردوBahasa IndonesiaDeutschTiếng ViệtTürkçeItalianoไทยEspañolবাংলাPortuguês