无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

剛剛,Anthropic發布Sonnet 5,性能接近Opus 4.8,但不一定更便宜

0
分享至



機器之心編輯部

剛剛,Anthropic 正式發布了全新的模型Claude Sonnet 5,稱其為「迄今為止最具 Agent 屬性的 Sonnet 模型」,可以制定計劃,使用瀏覽器、終端等工具,并以數月前還需要更大、更昂貴模型才能達到的水平自主運行。

Sonnet 5 在推理、工具使用、編程和知識工作方面,相比 Sonnet 4.6 性能有顯著提升,更接近 Opus 4.8,但價格更低。



官方表示,對于開發者來說,AI Agent 時代正是從 Sonnet 級模型開始的:Claude Sonnet 3.5、3.6 和 3.7 是最早在編程和工具使用上展現出亮眼能力的一批模型。不過最近一段時間,Agent 能力最明顯的提升主要出現在 Opus 級模型上。

而 Claude Sonnet 5 明顯縮小了這一差距:它的性能已經接近 Opus 4.8,但價格更低。相比上一代 Sonnet 4.6,它在推理、工具使用、編程和知識工作等智能體性能關鍵維度上都有顯著提升。具體對比如下圖所示:



下圖對比了 Sonnet 5 與 Sonnet 4.6、Opus 4.8 在智能體搜索評測 BrowseComp 和 computer use 評測 OSWorld?Verified 上、于不同「努力程度」下的表現:

  • Sonnet 5(橙色線) 相比 Sonnet 4.6(灰色線)具有明確的性能提升,且覆蓋的成本?性能選項范圍比 Opus 4.8(黃色線)更廣。
  • 在中等努力程度下,Sonnet 5 顯著提升了成本效率;在更高努力程度下,其性能在某些任務上可媲美 Opus 4.8。
  • 在 Sonnet 5 和 Opus 4.8 之間,用戶可根據具體任務靈活調整努力程度,找到最適合自身需求的成本與性能平衡點。



不同努力程度下的成本 - 性能曲線如上圖所示。此前最好的 Sonnet 模型(Sonnet 4.6)遠不及 Opus 4.8。Sonnet 5 提供了比 Sonnet 4.6 更廣泛的成本 - 性能選項,在某些情況下可達到 Opus 4.8 的能力水平。圖表中展示的 Sonnet 5 定價為輸入 $3 / 百萬 token,輸出 $15 / 百萬 token。通過 8 月 31 日前的嘗鮮價(輸入 $2 / 百萬 token、輸出 $10 / 百萬 token),Sonnet 5 的實際成本甚至比圖中顯示的更低。Opus 4.8 的定價為輸入 $5 / 百萬 token、輸出 $25 / 百萬 token。



來自 Anthropic 早期訪問合作伙伴的反饋始終一致:Sonnet 5 比其前代模型更具自主智能體能力(agentic)。測試者描述說,它能完成復雜任務 —— 而之前的 Sonnet 模型會在這些任務上中途止步;它會主動檢查自己的輸出,無需明確提示;而且它以極具吸引力的價格完成所有這些智能體工作:



安全評估

Anthropic 的部署前安全評估發現,Sonnet 5 整體上相比 Sonnet 4.6 有所改善。在自主智能體安全性方面,該模型在拒絕惡意請求和抵御提示注入攻擊中的劫持嘗試方面表現更好。模型的幻覺率和諂媚行為率均低于 Sonnet 4.6。在自動化行為審計(測試范圍廣泛的失當行為,如協助濫用和欺騙)中,Sonnet 5 得分更低(即更安全)。

不過,與能力更強的 Opus 4.8 和 Claude Mythos Preview 相比,它在該評估中確實表現出略高的失當行為率。



上圖展示了自動化行為審計中的失當行為率,該審計在多種情境和背景下測試大量不良行為(完整列表及各項行為結果見 Sonnet 5 系統卡第 6.4 節)。Sonnet 5 的失當行為率整體低于 Sonnet 4.6,但高于 Mythos Preview 和 Opus 4.8。

Anthropic 表示,他們并未刻意針對網絡安全任務訓練 Sonnet 5。它可以執行一些常規、無害的網絡任務,但在評估潛在危險網絡技能(如開發軟件漏洞利用程序)時,其表現顯著遜于 Opus 4.8 和 Mythos 5 等模型。

下圖展示了其中一項評估的得分,該評估測試了模型針對 Firefox 瀏覽器漏洞開發利用程序的能力。Sonnet 5 始終未能開發出完整可用的漏洞利用程序,但其部分成功率略高于 Sonnet 4.6。后者的提升可能源于通用智能的改進,而非特定訓練。



上圖展示了模型針對 Firefox 147 中軟件漏洞成功開發利用程序的得分(該評估與 Mozilla 合作開發;所有漏洞已在 Firefox 148 中修復)。對于每個模型,左側柱狀圖表示模型(在無安全護欄情況下)開發出可利用程序的頻率,右側柱狀圖表示部分成功的頻率。兩款 Sonnet 模型均未能成功開發出可利用程序(得分均為 0.0%);Sonnet 5 的部分成功率略高于 Sonnet 4.6。兩款 Sonnet 模型的網絡能力均顯著弱于 Opus 4.8 和 Mythos 5。

由于 Sonnet 5 在這些任務上比其前代略有增強,Anthropic 已默認啟用了網絡安全護欄。這些護欄 —— 能夠實時檢測并阻止危險的網絡使用 —— 與 Claude Opus 4.7 和 4.8 中的相同(因為 Anthropic 判斷 Sonnet 5 的整體網絡安全風險較低,其護欄嚴格程度低于 Fable 5 所啟用的 —— 后者會阻止更廣泛的網絡安全任務)。

Anthropic 對 Sonnet 5 在多項安全和能力評估上的完整評估報告,詳見 《Claude Sonnet 5 系統卡》。

定價

今天起,Claude Sonnet 5 已在所有渠道正式可用。為慶祝發布,Anthropic 推出限時優惠首發價:

  • 即日起至 2026 年 8 月 31 日:輸入為 $2 / 百萬 token,輸出為 $10 / 百萬 token
  • 之后恢復標準定價:輸入 $3 / 百萬 token,輸出 $15 / 百萬 token

與此同時,他們宣布全面上調 Chat、Cowork、Claude Code 以及 Claude 平臺的速率限制(rate limits),以適配更高「努力程度」模式帶來的更大 token 消耗。

注意事項

網絡安全驗證

Sonnet 5 已納入 Anthropic 的「網絡安全驗證計劃」。該計劃現已在以下平臺開放使用:

  • Claude 原生平臺
  • AWS 上的 Claude 平臺
  • Microsoft Foundry 中的 Claude(托管于 Azure 和 Anthropic)

Google Vertex 上的 Claude 也將很快支持。

已加入該計劃的組織,在 Sonnet 5 上自動獲得同等訪問權限,無需重新申請。如果你的網絡安全工作需要更少的安全護欄限制,Anthropic 推薦使用 Claude Opus 4.8。

tokenizer 更新與定價說明

Sonnet 5 是 Sonnet 4.6 的升級版,但采用了全新的 tokenizer,以優化文本處理性能(這與 Claude Opus 4.7 引入的 tokenizer 變更類似)。

帶來的變化是:相同輸入內容,現在會映射為更多 token,具體增幅約為 1.0~1.35 倍,視內容類型而定。

為此,Anthropic 設定的嘗鮮價,正是為了讓用戶過渡到 Sonnet 5 時,整體使用成本大致保持不變。

速率限制調整說明

早在 2026 年 4 月 26 日,Anthropic 已針對 Sonnet 和 Haiku 模型,在所有使用層級上調高了速率限制,并將原生 Claude 平臺的套餐簡化為三個層級:Start、Build、Scale。

本次更新,Anthropic 進一步上調了 Chat、Cowork、Claude Code 及 Claude 平臺的速率限制,以配合更高「努力程度」模式帶來的更大 token 消耗。

您可以在 Claude Console 中查看當前層級和具體限制,或查閱文檔獲取更多詳情。

評測分數更正說明(補充)

  • Humanity’s Last Exam:Anthropic 更新了該評測的評分模型,并據此將 Sonnet 4.6 的分數修正為 34.6%(無工具) 和 46.8%(有工具)。因此,該分數與 Sonnet 4.6 發布博客中報告的數據有所不同,特此說明。
  • OSWorld?Verified:Anthropic 優化了該評測的運行方式,以更真實地反映模型在實際場景中的表現,并將 Sonnet 4.6 的分數修正為 78.5%。這也是該分數與 Sonnet 4.6 發布博客中數據不一致的原因。

開發者上手反饋

Claude Sonnet 5 一經發布,大家也已經開始上手測評。

網友 Nicolas Bustamante 表示,自己很喜歡 Sonnet 5 的一點在于,它速度很快,而且針對 Agent 做了優化?!肝易钕矚g的例子是瀏覽器使用:又快,又安全。」

根據 system card 結果表明,瀏覽器使用場景下的提示注入攻擊成功率,Sonnet 5 只有 0.93%,而 Opus 4.8 是 31.5%,Sonnet 4.6 是 50.7%。



不過也有網友表示,「太貴了?!?/strong>



而據 Artificial Analysis 分析,在 Intelligence Index 上,Claude Sonnet 5 的運行成本為每項任務 2.29 美元,相比 Sonnet 4.6 增加約 2 倍,也比 Claude Opus 4.8 高出約 15%。這一成本上升完全由 token 使用量增加所驅動,使 Claude Sonnet 5 成為運行成本最高的模型之一,僅次于 Claude Fable 5。



那么你呢,覺得新模型如何,歡迎評論區留言、交流!

https://x.com/claudeai/status/2072017450611142835

https://www.anthropic.com/news/claude-sonnet-5

https://x.com/ArtificialAnlys/status/2072062595482456431

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
千金不換,成熟個體不到30株!廣東村民誤采當涼茶,專家復水搶救

千金不換,成熟個體不到30株!廣東村民誤采當涼茶,專家復水搶救

萬象硬核本尊
2026-06-30 23:12:47
李楠上任放大招!曝首鋼正追FMVP,總決賽50分大殺器或重返北京隊

李楠上任放大招!曝首鋼正追FMVP,總決賽50分大殺器或重返北京隊

萌蘭聊個球
2026-07-01 11:27:01
iPhone 18 Pro Max徹底曝光,蘋果開始慌了

iPhone 18 Pro Max徹底曝光,蘋果開始慌了

搞機小帝
2026-07-01 03:03:41
庫庫:世界杯想和姆巴佩換球衣;如果可以想為皇馬簽下羅德里

庫庫:世界杯想和姆巴佩換球衣;如果可以想為皇馬簽下羅德里

懂球帝
2026-06-30 22:21:10
女子被歹徒蹂躪三小時,死前哀求別吵醒女兒,丁照月遇害案始末

女子被歹徒蹂躪三小時,死前哀求別吵醒女兒,丁照月遇害案始末

易玄
2026-06-23 06:45:08
她和楊紫是同學,畢業就嫁給了導演李雪,26歲就兒女雙全了!

她和楊紫是同學,畢業就嫁給了導演李雪,26歲就兒女雙全了!

西樓知趣雜談
2026-06-30 21:21:58
老板眼中的當前就業大環境是這樣的…

老板眼中的當前就業大環境是這樣的…

慧翔百科
2026-06-30 11:35:21
伊朗總統:達成伊美諒解備忘錄經與穆杰塔巴充分協調,一些政治派別“試圖通過抹黑談判團隊、質疑國家決策,削弱這一外交成果”

伊朗總統:達成伊美諒解備忘錄經與穆杰塔巴充分協調,一些政治派別“試圖通過抹黑談判團隊、質疑國家決策,削弱這一外交成果”

魯中晨報
2026-06-30 20:26:40
7.1日凌晨乒賽:世界第二爆冷,林詩棟狂勝僅讓對手10分

7.1日凌晨乒賽:世界第二爆冷,林詩棟狂勝僅讓對手10分

余憁搞笑段子
2026-07-01 07:12:07
62歲知名港星陶大宇低調再婚,攜妻子現身吉隆坡街頭好恩愛!

62歲知名港星陶大宇低調再婚,攜妻子現身吉隆坡街頭好恩愛!

手工制作阿殲
2026-07-01 08:18:13
燕郊二手房量跌價漲,房東硬氣:砍價從20萬縮至三五萬

燕郊二手房量跌價漲,房東硬氣:砍價從20萬縮至三五萬

石辰搞笑日常
2026-07-01 09:15:07
第5艘來了!解放軍后發制人,比美軍快10倍,5年內追上美國?

第5艘來了!解放軍后發制人,比美軍快10倍,5年內追上美國?

精彩一觸即發
2026-07-01 05:31:29
一擲千金的“大哥”越來越少!女主播群體從深圳遷到惠州路邊帳篷

一擲千金的“大哥”越來越少!女主播群體從深圳遷到惠州路邊帳篷

火山詩話
2026-06-29 04:37:21
大滿貫爆冷門!世界冠軍0-3被淘汰,王曼昱慘敗,張本美和零封

大滿貫爆冷門!世界冠軍0-3被淘汰,王曼昱慘敗,張本美和零封

南海浪花
2026-07-01 10:24:35
巴格達一夜變天:坦克封城,政要被捕,內戰陰影籠罩

巴格達一夜變天:坦克封城,政要被捕,內戰陰影籠罩

遁走的兩輪
2026-06-30 14:42:33
500億交了昂貴學費!京東的外賣敗局,給所有企業敲了警鐘?

500億交了昂貴學費!京東的外賣敗局,給所有企業敲了警鐘?

新浪財經
2026-06-30 13:36:58
德媒:格雷茨卡拒絕主罰點球,踢丟關鍵點球的塔此前從未罰過點

德媒:格雷茨卡拒絕主罰點球,踢丟關鍵點球的塔此前從未罰過點

懂球帝
2026-06-30 21:10:30
WTT美國大滿貫太殘酷了:隨著佐藤瞳3-0,國乒女單已有2名將出局

WTT美國大滿貫太殘酷了:隨著佐藤瞳3-0,國乒女單已有2名將出局

凌空倒鉤
2026-07-01 09:55:23
“一根白色柱子,毀了學校招牌”,合肥高?;鹆耍鷧s很興奮

“一根白色柱子,毀了學校招牌”,合肥高校火了,女生卻很興奮

世界圈
2026-06-30 08:17:46
詹姆斯致謝湖人:能身披紫金戰袍是我的榮幸,希望沒辜負期待

詹姆斯致謝湖人:能身披紫金戰袍是我的榮幸,希望沒辜負期待

懂球帝
2026-07-01 06:13:03
2026-07-01 12:00:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
13405文章數 142685關注度
往期回顧 全部

科技要聞

美國放行,Anthropic兩款頂級模型將恢復

頭條要聞

老人獲幫助后車禍去世 孫子:視頻里他笑得合不攏嘴

頭條要聞

老人獲幫助后車禍去世 孫子:視頻里他笑得合不攏嘴

體育要聞

德國足球,臉都不要了

娛樂要聞

羅晉大孤山素顏照,禿頂白發引熱議

財經要聞

新氧貸款:宣傳年化15%,實際頂格24%

汽車要聞

奇瑞風云A9探店 五個理由一定來看看

態度原創

教育
家居
健康
旅游
軍事航空

教育要聞

高中英語平時120左右,遇到瓶頸上不去,如何穩定在一百三四十?

家居要聞

傳奇筑 日常詩

狂吃“糯嘰嘰”小心腸梗阻!

旅游要聞

內蒙古呼和浩特:塞上老街夜未央

軍事要聞

以色列防長:穆杰塔巴已被列入死亡名單

無障礙瀏覽 進入關懷版