![]()
機器之心編輯部
本周五凌晨,Anthropic 正式發布了最新一代大模型 Claude Opus 4.8。
Anthropic 表示,新模型構建于 Opus 4.7 基礎之上,具備更敏銳的判斷力,對自身進展的「誠實度」更高,并且能夠比前一代模型更長時間地獨立工作。
![]()
作為 Claude 模型系列中參數最大的旗艦級模型,Claude Opus 4.8 在各項基準測試中均有所提升,旨在能夠成為你更高效的協作伙伴。Anthropic 表示,即日起新模型已上線,API 價格沒有變化,還是輸入 Token 價格每百萬個 5 美元,輸出 Token 價格每百萬個 25 美元。快速模式(Fast Mode)下的價格只有以前的 1/3:輸入 Token 價格每百萬個 10 美元,輸出 Token 價格每百萬個 50 美元。
在 Opus 4.8 發布后,Cursor 等平臺也立即上線了該模型。
隨著 Opus 4.8 共同發布的還有多項新功能。claude.ai 平臺的用戶現可自行調節 Claude 在執行任務時投入的「精力」程度。Claude Code 新增了「動態工作流」功能,使其能夠應對超大規模的復雜問題。此外,Opus 4.8 的「極速模式」(Fast Mode)現已上線 —— 在該模式下,模型的運行速度可提升至常規模式的 2.5 倍。
下表展示了 Opus 4.8 在編程、智能體能力、邏輯推理及實際知識型工作任務等測試中,與前代版本及其他競品模型的對比情況。可見多項能力大幅超越了 GPT-5.5。
![]()
據早期測試用戶反饋,Claude Opus 4.8 在執行部分任務時相比前代表現得更為可靠,且判斷力更加敏銳,也有人表示 token 消耗似乎變少了。
![]()
![]()
不過也有用戶表示,作為一個小版本更新,Opus 4.8 的能力提升并不明顯。
![]()
Opus 4.8 最顯著的改進之一在于其「誠實性」。Anthropic 對所有模型都進行了誠實性訓練 —— 例如,訓練它們避免做出那些無法提供佐證的斷言。然而,AI 模型普遍存在一個問題:它們有時會倉促下結論,盡管證據尚不充分,卻依然自信地聲稱自己在工作中取得了進展。
早期測試人員反饋稱,Opus 4.8 更傾向于主動指出其工作中的不確定之處,且極少做出缺乏依據的斷言。Anthropic 的內部評估結果也印證了這一點:數據顯示,Opus 4.8 允許其編寫的代碼中存在缺陷卻未加提示的概率,僅為其前代模型的四分之一左右。
和以前一樣,Anthropic 在正式發布新模型之前對其進行了一次詳盡的「對齊性」(Alignment)評估。在積極特質方面,對齊團隊得出的結論是:Opus 4.8「在支持用戶自主權、始終維護用戶最佳利益等『親社會特質』的各項衡量指標上,均創下了新的高點。」
評估結果還顯示,Opus 4.8 出現「未對齊行為」(即偏離預期行為,例如欺騙用戶或協助進行濫用操作)的發生率顯著低于 Opus 4.7,且已達到 Anthropic 目前對齊效果最佳的模型 Claude Mythos Preview 的同等水平。
![]()
除了 Claude Opus 4.8 之外,本次更新最有趣的部分是動態工作流(Dynamic workflows)
這項目前處于「研究預覽」階段的新功能允許 Claude 在 Claude Code 環境中承接規模更為龐大的任務。Claude 能夠自主規劃工作流程,并在單次會話中同時啟動數百個并行運行的「子智能體」(Subagents)。在提示中使用「workflow」一詞即可開始。
得益于 Opus 4.8 的加持,這些智能體的持續運行時間得到了進一步延長,最多能跑上幾天,中途斷了還能繼續。在大模型向用戶提交最終報告之前,Claude 會先行對自身的輸出結果進行嚴格的驗證。
當然,這非常耗費 token。
搭載 Opus 4.8 的 Claude Code 現已具備處理代碼庫級遷移任務的能力 —— 它能以現有的測試套件為質量基準,全程負責處理數十萬行代碼的遷移工作,直至代碼最終合并入庫。
Anthropic 在這里舉的例子是他們把 JavaScript 運行時 Bun 用 Rust 重寫了一遍,原作者 Jarred Sumner 利用動態工作流將 Bun 從 Zig 移植到 Rust,現有測試套件的通過率高達 99.8%,Rust 代碼量約為 75 萬行,從首次提交到合并僅用了 11 天。
「動態工作流」功能目前已面向 Claude Code 的企業版、團隊版及 Max 版用戶開放。
Claude.ai 與 Cowork 平臺中的加入了「投入度控制」(Effort control)功能,在模型選擇器旁新增了一項控制選項,允許用戶自行設定 Claude 在生成回復時應投入多少精力與資源。在「高投入」(High Effort)設置下,Claude 會進行更頻繁、更深入的思考,從而給出更優質的回復。而在「低投入」(Low Effort)設置下,Claude 的響應速度會更快,且消耗用戶的速率限制(Rate Limits)也會更慢。人們現在擁有了這一選擇權,所有套餐方案均已開放「投入度控制」功能。
Messages API 現在支持在 messages 數組中接收「系統條目」(System Entries)。開發者可以在任務執行過程中實時更新 Claude 的指令,而無需清空提示詞緩存,也無需通過模擬「用戶回合」的方式來傳遞更新。在特定的運行框架(Harness)中,開發者可以利用此功能在智能體運行期間動態調整權限、token 預算或環境上下文。
![]()
視頻鏈接:https://mp.weixin.qq.com/s/-GmUORU8V5PNW0_6A5uNcw
Opus 4.8 默認采用「高投入」設置,Anthropic 認為這是在質量與用戶體驗之間取得最佳平衡的方案。針對編程類任務,該投入度級別所消耗的 Token 數量與 Opus 4.7 的默認設置相近,但性能表現更為出色。
用戶可以選擇「額外投入」(在 Claude Code 中對應「xhigh」選項)或「最大投入」(Max),此時模型將消耗更多 Token 以產出更優質的結果。Anthropic 建議在處理高難度任務或運行耗時較長的異步工作流時,選用「額外投入」模式。Anthropic 已在 Claude Code 中上調了速率限制,以適應高投入度級別下 Token 消耗量增加的需求。用戶可根據自身項目的具體情況,靈活選擇最適合的投入度級別。
Anthropic 稱,用戶將會發現,Opus 4.8 相較于其前代版本,雖改進幅度適中,但提升效果卻是實實在在、顯而易見的。Anthropic 正致力于開發并發布一系列新模型,旨在以更低的成本,提供與 Opus 同樣強大的各項能力。
除此以外,Anthropic 還計劃發布一類全新的模型,其智能水平將超越現有的 Opus 模型。作為「Glasswing 項目」的一部分,目前已有少數機構開始試用「Claude Mythos 預覽版」來開展網絡安全相關工作。鑒于此類模型具備極高的能力水平,在正式面向大眾發布之前,必須先行建立更為強健的網絡安全防護體系。目前,Anthropic 在構建這些安全防護措施方面已取得快速進展,并預計在未來數周內,即可將 Mythos 級別的模型正式向所有客戶開放。
新模型發布的同時,Anthropic 宣布了獲得最新一輪融資:其在 H 輪融資中籌集了 650 億美元,投后估值高達 9650 億美元。要知道,今年 2 月剛完成的 G 輪融資,估值還是 3800 億美元。
本輪融資由 Altimeter Capital、Dragoneer、Greenoaks 與紅杉資本領投。Anthropic 表示,這筆投資將幫助推進 AI 研究并擴大產能,以滿足人們對 Claude 日益增長的需求。
![]()
本輪融資還包括此前來自超大規模數據中心的 150 億美元承諾投資,其中有亞馬遜投資的 50 億美元。值得關注的是,內存廠商美光、三星和 SK 海力士也加入了投資的行列。
在融資公告中 Anthropic 也透露,自今年 2 月完成 G 輪融資以來,Claude 在全球企業客戶中的應用持續增長,本月初的年化收入已經突破 470 億美元。
Anthropic 的優勢還將繼續?
參考內容:
https://www.anthropic.com/news/claude-opus-4-8
https://www.anthropic.com/news/series-h
Claude Opus 4.8 模型 System Card:
https://cdn.sanity.io/files/4zrzovbb/website/c886650a2e96fc0925c805a1a7ca77314ccbf4a6.pdf
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.