Skip to main content

Claude Opus 4.8 發佈:Anthropic 迄今為止最強大的模型

· 閱讀時間約 8 分鐘
Felo Search Tips Buddy
Committed to answers at your fingertips

Anthropic 剛剛發佈了 Claude Opus 4.8 —— 更快、更誠實,並在代理型任務上表現更佳。以下是所有新功能,以及它對開發者的重要性。

Claude Opus 4.8 Released cover image showing headline and key highlights

Anthropic 本週發佈了 Claude Opus 4.8。這是他們迄今推出的最強大公開模型,在 Opus 4.7 的基礎上,於編碼、推理、代理任務與誠實度等方面全面提升。價格維持不變:每百萬輸入 tokens 為 5 美元,每百萬輸出 tokens 為 25 美元。

以下是這次的更新內容,以及它對開發者的重要意義。


與 Opus 4.7 相比的變化

以下是真正的改進重點:

1. 更佳的判斷與誠實度

Opus 4.8 不太容易做出無根據的主張,或讓程式碼錯誤被忽略。Anthropic 的測試顯示,它比前一代模型少約四倍讓自己的程式碼錯誤通過而未作提醒。當你信任模型能自主運作時,這樣的改進至關重要。

早期的測試者指出,它會提出正確問題、捕捉自身錯誤,並在計畫不合理時提出異議。

2. 更強的代理表現

Benchmark comparison chart showing Claude Opus 4.8 vs Opus 4.7 vs GPT-5.5 across Super-Agent, CursorBench, Online-Mind2Web, and Legal Agent benchmarks

Opus 4.8 是唯一能在 Anthropic 的 Super-Agent 基準測試中完成所有案例端到端的模型,在同等成本下擊敗了先前的 Opus 模型與 GPT-5.5。在 CursorBench 上,它在各種努力層級中都優於過去版本,能用更少的工具調用步驟達到相同智慧水準。

此外,它也是 Anthropic 測試過的最強電腦操作與瀏覽器代理模型,在 Online-Mind2Web 測試中獲得 84% 的高分。

3. 更快、更高效的工具調用

這個模型更不容易略過任務需要的工具調用,這是 Opus 4.7 的已知痛點。更長的代理追蹤在壓縮上下文後也能更穩定地執行,減少偏離任務的情況。

4. 真正能「適應」的自適應思考

啟用自適應思考後,Opus 4.8 會在每回合決定是否需要推理。簡單查詢將直接回答,複雜問題則先進行推理再作答。與 Opus 4.7 相比,減少了浪費的 tokens。


值得注意的新功能

努力控制 —— 現已在所有方案上開放

模型選擇器旁新增一個控制項,讓使用者可選擇 Claude 在回應時投入的努力程度。Opus 4.8 預設為 high,也提供 extramax 選項以應對更困難的任務。Claude Code 的速率限制已提升,以支援更多 token 用量。

快速模式 —— 2.5 倍速度、更低成本

快速模式現已在 Claude API 上以研究預覽形式開放給 Opus 4.8。它能提供高達 2.5 倍的輸出 tokens 每秒,成本則比先前模型低約三倍。

對話中途的系統訊息

Messages API 現在接受在 messages 陣列中插入 role: "system" 條目。你可以在任務進行中更新 Claude 的指令,而不會破壞提示快取——這在代理循環過程中許可權或上下文發生變化時特別有用。

降低提示快取的最小限度

可快取提示的最小長度已降至 1,024 tokens。先前在 Opus 4.7 上過短而無法快取的提示,如今無需修改程式碼即可建立快取項目。


真實世界基準測試

基準測試Opus 4.8 表現
Super-Agent完成所有案例端到端(唯一做到的模型)
CursorBench在每個努力層級超越以往所有 Opus 模型
Online-Mind2Web84%(測試中最強模型)
Legal Agent Benchmark最高分紀錄;首個整體突破 10% 門檻的模型

Conceptual illustration of an AI agent autonomously working on a codebase with tools and workflow indicators

Opus 4.8 在長期自主運作的任務中表現最強 —— 包括編碼代理、研究代理、法律流程與企業知識工作。


價格 —— 與 Opus 4.7 相同

模式輸入輸出
標準$5 / 1M tokens$25 / 1M tokens
快速$10 / 1M tokens$50 / 1M tokens

與 Opus 4.7 相同的價格,卻擁有更佳效能。API 上的模型 ID 為 claude-opus-4-8。支援 1M token 上下文視窗與最多 128k 輸出 tokens。


下一步:Mythos 級模型

Anthropic 也暗示了一個「智力超越 Opus」的新模型系列。目前已有少數組織透過 Project Glasswing 使用 Claude Mythos Preview 進行網路安全工作。公司計劃在未來幾週內,待安全防護措施就緒後,將 Mythos 級模型開放給所有客戶。


為何模型多樣性很重要

如今幾乎每週都有新 AI 模型發佈。對建構在它們之上的開發者而言,真正的問題不是哪個模型「最好」,而是哪個模型適合哪個任務,以及如何在它們之間無縫切換。

這正是 Felo AI 要解決的問題。除了其利用先進模型進行即時回答的 AI 搜尋功能外,Felo 也提供一個 LLM Playground,讓你可在同一平台上呼叫、測試並比較多款頂尖模型的輸出。無需切換 API 金鑰,也不必在不同儀表板間來回。只要選擇模型、執行提示、即可查看表現。

無論你是在為工作流程評估模型,或只是想了解市面上的選擇,將這些都放在同一介面中,能讓比較過程輕鬆許多。


免費試用 Felo AI → https://felo.ai


本文也提供以下語言版本:English简体中文日本語한국어हिन्दीFrançaisالعربيةРусскийاردوBahasa IndonesiaDeutschTiếng ViệtTürkçeItalianoไทยEspañolবাংলাPortuguês