![]()
智東西
編譯 李水青
編輯 云鵬
智東西7月1日消息,剛剛,Anthropic宣布Claude Fable 5解禁。就在6小時前,Anthropic推出一款新模型Claude Sonnet 5,面向所有套餐用戶開放。
Anthropic在推文中稱:“我們已收到通知,美國商務部已解除對Claude Fable 5和Mythos 5的出口管制。我們將于明日開始恢復訪問權限,并盡快發布最新消息。感謝用戶的耐心等待,也感謝所有與我們合作的人員。”
![]()
▲Anthropic宣布Fable 5解禁
此前6月13日,Anthropic因美國政府發布一項出口管制指令,終止了所有用戶的Fable 5和Mythos 5訪問權限。而后兩周,Anthropic在全球范圍內封禁了一大批賬號,使得大批原Claude用戶轉向尋找替代產品。
Fable 5回歸的關注度雖高,但Claude最新的Sonnet 5也值得一看。據悉,其最大進步在于能夠自主運行長時間任務,用戶可以制定計劃、使用瀏覽器和終端等工具。幾個月前要達到這樣的水平,還需要更昂貴的模型。
從測評成績來看,Sonnet 5性能接近Opus 4.8,但價格更低;同時,它比其前代產品Sonnet 4.6有了顯著的改進,在推理、工具使用、編程和知識工作等Agent性能方面更強。
![]()
▲Sonnet 5與Sonnet 4.6和Opus 4.8測評得分對比
Sonnet 5在Agent環境中使用更安全,不良行為發生率總體低于Sonnet 4.6,但高于Opus 4.8和Claude Mythos Preview。但在網絡安全類任務上,該模型的能力遠不及現有Opus系列模型。
從今天起,免費版和專業版Claude用戶默認使用Sonnet 5,Max版、團隊版和企業版用戶也可使用,該模型還可通過Claude Code和Claude Platform使用。在Claude Platform上,Sonnet 5的首發價格為每百萬個輸入token 2美元(約合人民幣13.6元),每百萬個輸出token 10美元(約合人民幣67.9元),優惠期至2026年8月31日。
優惠結束之后,價格將調整為每百萬個輸入token 3美元(約合人民幣20.4元),每百萬個輸出token 15美元(約合人民幣101.8元);這一價格仍低于Opus 4.8的輸入5美元、輸出25美元的定價。開發者可通過Claude API使用claude-sonnet-5模型。
模型一經發布,一些網友認為這是一次“巨大的更新”。有網友稱:“有趣的不是它與Opus的算法接近,而是算法接近但token的價格卻便宜60%。”有網友稱:“既然它本身就能處理多步驟Agent工作流程,再去構建更大的模型就不太劃算了。”也有人稱:“終于有一個能自我檢查的模型了,它讓我們免于在長時間運行的循環中時刻關注每一個輸出結果。”
![]()
![]()
▲網友對Sonnet 5的評論(圖源:社交媒體X)
但也有網友認為這款模型頗為“雞肋”。一位網友稱:“你自己也承認,這比你目前排名第二的型號要弱。訂閱用戶想要的是性能更強的模型,而不是價格便宜幾分錢卻只會給出虛假答案的玩具。”也有網友擔心所謂自主運行,反而讓用戶擔心模型犯傻、刪錯文件。有人吐槽:“促銷價過后,它的價格和Opus差不多。”也有網友認為,Sonnet 5就是面向6月17日新開源的智譜GLM-5.2展開價格戰。
GLM-5.2在OpenRouter等第三方API平臺定價為每百萬token輸入1.40美元,輸出4.40美元,Sonnet 5依然高出不少。
![]()
![]()
![]()
![]()
▲網友對Sonnet 5的評論(圖源:社交媒體X)
一、性能對標、價格骨折,Sonnet 5拳打自家Opus 4.8
下圖比較了Sonnet 5、Sonnet 4.6和Opus 4.8在不同工作量水平下,在BrowseComp智能搜索評估和OSWorld-Verified計算機使用評估中的性能表現。
Sonnet 5(橙色線)相比Sonnet 4.6(灰色線)有了顯著提升,并且比Opus 4.8(黃色線)涵蓋了更廣泛的性價比選擇。它在中等工作量下提供了更高的成本效益;在某些任務中,其高工作量下的性能可以與Opus 4.8相媲美。用戶可以在Sonnet 5和Opus 4.8之間調整工作量水平,以找到成本和性能的最佳平衡點。
下圖顯示了不同投入水平下的性價比曲線。前代產品Sonnet 4.6遠遜于Opus 4.8,但Sonnet 5提供的性價比選擇范圍比Sonnet 4.6更廣,在某些情況下甚至可以與Opus 4.8的性能水平相媲美。
![]()
▲Agent搜索
![]()
▲Agent計算機使用
圖表顯示了Sonnet 5的定價,但其實際成本甚至比圖中所示還要低。Opus 4.8的定價為每百萬輸入token 5美元,每百萬輸出token 25美元。xhigh表示,Opus 4.8達到了超高投入水平。
來自早期體驗合作伙伴的反饋一致,Sonnet 5比其前代產品更具自主性。測試人員描述了它如何完成以往Sonnet型號無法完成的復雜任務,如何在無需明確要求的情況下檢查自身輸出,以及它如何以極具吸引力的價格完成所有這些自主工作。
一位網友對比了Claude Sonnet 5與Claude Opus 4.8的體驗結果,讓它們分別創建一個關于Claude Sonnet 5的HTML落地頁,認為就輸出質量而言,Opus勝出;就模型速度和成本而言,Sonnet 5勝出。
其中Sonnet 5使用token:輸入20.9k,輸出14.2k,總成本:3.36美元,耗時:2分11秒。Opus 4.8:使用token:輸入96.3k,輸出73.8k,總成本:20.66美元,耗時:20分15秒。
![]()
▲左圖為Opus 4.8生成網頁,右圖為Sonnet 5生成網頁
二、安全防御提升,網絡安全任務執行遠遜于Opus與Mythos
Anthropic的部署前安全評估發現,Sonnet 5總體上比Sonnet 4.6有所改進。在Agent安全方面,該模型能夠更好地拒絕惡意請求,并抵御即時注入攻擊中的劫持嘗試。與Sonnet 4.6相比,該模型表現出更低的幻覺和奉承行為發生率。
在Anthropic的自動化行為審查中,該審計測試各種不協調行為,例如濫用和欺騙等,Sonnet 5的總體得分更低(即更安全)。然而,與Opus 4.8和Claude Mythos Preview相比,Sonnet 5在此項評估中表現出的不協調行為發生率略高。
![]()
▲Claude模型中不一致行為的發生率
Anthropic并未刻意訓練Sonnet 5執行網絡安全任務。它可以執行一些常規的、無害的網絡安全任務,但在測試潛在危險網絡安全技能的評估中,例如開發軟件漏洞利用程序,它的表現遠遜于Opus 4.8和Mythos 5等模型。
下圖展示了一項評估的得分,該評估測試了模型開發針對Firefox瀏覽器漏洞的利用程序的能力。Sonnet 5從未成功開發出完整的可用漏洞利用程序,但其部分成功率略高于Sonnet 4.6。后者的變化很可能是由于其通用智能的提升,而非特定訓練的結果。
![]()
▲衡量Claude模型在開發針對Firefox 147軟件漏洞的利用程序方面的成功率
如上圖所示,對于每個模型,左側條形圖顯示模型在無安全措施的情況下,開發出有效利用程序的頻率;右側條形圖顯示模型部分成功的頻率。Sonnet的兩個模型均未能成功開發出有效利用程序,得分均為0.0%;Sonnet 5的部分成功率略高于Sonnet 4.6。Sonnet的兩個模型的網絡安全能力均遠遜于Opus 4.8和Mythos 5。
由于Sonnet 5在這些任務上比其前代產品功能更強大,Anthropic默認啟用了網絡安全防護功能。這些防護功能可以實時檢測并阻止危險的網絡攻擊,與Claude Opus 4.7和4.8中的防護功能相同。因為Anthropic評估Sonnet 5的總體網絡安全風險較低,所以其防護措施比Fable 5的防護措施寬松,Fable 5會阻止更廣泛的網絡安全攻擊。
結語:Sonnet 5來了,但全網都在等Fable 5
曾幾何時,Sonnet系列憑借3.5至3.7版本為開發者打開了Agent工程的大門,成為編碼與工具調用的標桿。但隨后幾年,Opus系列在復雜推理和高端任務上持續領跑,讓Sonnet逐漸退居“高性價比備選”之位。
如今,Sonnet 5試圖宣告回歸:在高投入場景下性能足以比肩Opus 4.8,成本更低。不過,對于Sonnet 5這種備選方案,很多網友并不買賬,而是催著能力更強的Fable 5解禁。與此同時,Sonnet 5也被認為是面向GML-5.2等模型打響價格戰,頭部大模型廠商之間的Agent競賽似乎已進入肉搏階段。
來源:Anthropic、X
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.