網易首頁 > 網易號 > 正文申請入駐

Anthropic推出Claude Opus 4.8 編碼能力與“誠實度”雙雙升級

Opus 4.8更“誠實”：不強行給出答案

Claude Opus 4.8發布：更高“誠實度”

2026-05-29 03:51:03　來源: cnBeta.COM

浙江舉報

分享至

Anthropic 今日正式發布最新一代大型語言模型 Claude Opus 4.8，重點強化在代碼生成、多學科推理、自動操作電腦、知識型工作以及金融分析等“代理型”（agentic）任務中的表現，被官方形容為“更高效的協作伙伴”。參與測試的用戶反饋稱，Opus 4.8 在執行復雜代理任務時表現更可靠、判斷更敏銳，同時在誠實性方面也有明顯改進。

Anthropic 表示，早期測試結果顯示，Opus 4.8 更傾向于主動標注自身不確定之處，更少做出缺乏依據的斷言。內部評估數據顯示，相比前一版本，Opus 4.8 在自己生成的代碼中放過錯誤不提及的概率約降低了四倍，這意味著模型在代碼審查與質量控制環節的“自我糾錯”能力顯著增強。

在對齊性（alignment）測試中，Opus 4.8 在支持用戶自主決策、維護用戶最大利益等“親社會特質”方面創下新高。與之相對，諸如隱性欺騙、誤導性行為等“失配行為”的發生率低于 Opus 4.7，并與此前僅向少量機構測試開放的 Claude Mythos 預覽模型處于同一水平。

在多項公開基準測試上，Anthropic 也給出了具體成績：Opus 4.8 在軟件工程基準 SWE?Bench Pro 上取得了 69.2% 的得分，超過了 GPT?5.5 和 Gemini 3.1 Pro 等競品模型，在多個測試項目中占據優勢，不過在終端編碼類基準上仍由 GPT?5.5 領先。在性能方面，Opus 4.8 的快速模式推理速度提升至此前的 2.5 倍，價格則降至舊型號的約三分之一，使得高性能使用的整體門檻進一步降低。

配合新模型上線，Anthropic 還宣布為產品體系加入多項新功能，其中包括面向企業開發者的“動態工作流”（研究預覽）。這項功能允許 Claude 在 Claude Code 環境中拆解大型任務、規劃工作步驟，并在單個會話內并行調度數百個子代理，從而完成跨數十萬行代碼的代碼庫級遷移操作，目前面向 Claude Code 企業版、團隊版和 Max 訂閱計劃開放。

在交互控制方面，Anthropic 新增了“努力程度控制”功能，供 Claude.ai 與 Cowork 用戶選擇模型在單次回答中投入的計算資源與推理深度。用戶若選擇較低努力等級，可以獲得更快的響應速度并減少速率配額消耗，而 Opus 4.8 默認采用“高努力”模式，官方認為這是回答質量與使用體驗之間的最佳平衡點。

針對開發者，Anthropic 更新了 Messages API，使其能夠在消息數組中接受系統級指令條目。這意味著開發者可在任務執行過程中動態調整 Claude 的行為準則與角色設定，而無需重新開啟新會話，有助于構建更靈活的多步驟自動化工作流和企業級應用。

Anthropic 表示，Claude Opus 4.8 即日起在全球范圍內全面開放使用，其常規用量的定價與 Opus 4.7 保持不變。公司同時透露，正研發在相同功能水平下成本更低的新模型，以及一類能力超過 Opus 4.8 的“下一代”模型產品。

在高階模型路線圖方面，Anthropic 正與少數合作機構測試代號為 Claude Mythos 的前沿模型，并圍繞該模型持續開發更嚴格的安全護欄與使用規范。公司稱，預計將在“未來數周內”向全部客戶提供 Mythos 級模型，進一步拓展其在企業級安全審計、代碼分析以及復雜決策支持等場景中的競爭力。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.