Anthropic 今日正式發布最新一代大型語言模型 Claude Opus 4.8,重點強化在代碼生成、多學科推理、自動操作電腦、知識型工作以及金融分析等“代理型”(agentic)任務中的表現,被官方形容為“更高效的協作伙伴”。 參與測試的用戶反饋稱,Opus 4.8 在執行復雜代理任務時表現更可靠、判斷更敏銳,同時在誠實性方面也有明顯改進。
![]()
Anthropic 表示,早期測試結果顯示,Opus 4.8 更傾向于主動標注自身不確定之處,更少做出缺乏依據的斷言。 內部評估數據顯示,相比前一版本,Opus 4.8 在自己生成的代碼中放過錯誤不提及的概率約降低了四倍,這意味著模型在代碼審查與質量控制環節的“自我糾錯”能力顯著增強。
在對齊性(alignment)測試中,Opus 4.8 在支持用戶自主決策、維護用戶最大利益等“親社會特質”方面創下新高。 與之相對,諸如隱性欺騙、誤導性行為等“失配行為”的發生率低于 Opus 4.7,并與此前僅向少量機構測試開放的 Claude Mythos 預覽模型處于同一水平。
在多項公開基準測試上,Anthropic 也給出了具體成績:Opus 4.8 在軟件工程基準 SWE?Bench Pro 上取得了 69.2% 的得分,超過了 GPT?5.5 和 Gemini 3.1 Pro 等競品模型,在多個測試項目中占據優勢,不過在終端編碼類基準上仍由 GPT?5.5 領先。 在性能方面,Opus 4.8 的快速模式推理速度提升至此前的 2.5 倍,價格則降至舊型號的約三分之一,使得高性能使用的整體門檻進一步降低。
配合新模型上線,Anthropic 還宣布為產品體系加入多項新功能,其中包括面向企業開發者的“動態工作流”(研究預覽)。 這項功能允許 Claude 在 Claude Code 環境中拆解大型任務、規劃工作步驟,并在單個會話內并行調度數百個子代理,從而完成跨數十萬行代碼的代碼庫級遷移操作,目前面向 Claude Code 企業版、團隊版和 Max 訂閱計劃開放。
在交互控制方面,Anthropic 新增了“努力程度控制”功能,供 Claude.ai 與 Cowork 用戶選擇模型在單次回答中投入的計算資源與推理深度。 用戶若選擇較低努力等級,可以獲得更快的響應速度并減少速率配額消耗,而 Opus 4.8 默認采用“高努力”模式,官方認為這是回答質量與使用體驗之間的最佳平衡點。
針對開發者,Anthropic 更新了 Messages API,使其能夠在消息數組中接受系統級指令條目。 這意味著開發者可在任務執行過程中動態調整 Claude 的行為準則與角色設定,而無需重新開啟新會話,有助于構建更靈活的多步驟自動化工作流和企業級應用。
Anthropic 表示,Claude Opus 4.8 即日起在全球范圍內全面開放使用,其常規用量的定價與 Opus 4.7 保持不變。 公司同時透露,正研發在相同功能水平下成本更低的新模型,以及一類能力超過 Opus 4.8 的“下一代”模型產品。
在高階模型路線圖方面,Anthropic 正與少數合作機構測試代號為 Claude Mythos 的前沿模型,并圍繞該模型持續開發更嚴格的安全護欄與使用規范。 公司稱,預計將在“未來數周內”向全部客戶提供 Mythos 級模型,進一步拓展其在企業級安全審計、代碼分析以及復雜決策支持等場景中的競爭力。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.