无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

Claude Opus 4.7 突襲上線:性能封神但也變貴了?實測 Token 消耗最高多出 35%!

0
分享至

AI范兒 · 產品拆解

就在剛剛,Anthropic 扔出了 Claude Opus 4.7。

現在已經全部上線了,在網頁端和 APP 都可以直接使用,一次到位,價格沒漲。

Mythos Preview 先不放這事上次 Glasswing 發布時就說了,4.7 是踩著剎車的那版。跳過。

我好奇的是:一個被官方親口承認"沒達到能力前沿"的版本,到底能打到什么程度?

翻完 Anthropic 發的 232 頁 System Card,看完 4.7 跟 GPT-5.4、Gemini 3.1 Pro 一堆橫向對比,我的感覺是:

這貨雖然不是最強,但它在幾個具體能力上,確實是當前公開能用的最強。

按能力一個一個說。

01寫代碼:最能打的那個

編程能力一直是 Claude 的招牌,這次 Anthropic 放出來的成績單有四個主要測評。

先翻譯一下這幾個測評是啥:

SWE-bench Verified是業內最主流的編程基準,給模型一堆真實的 bug,看它能不能修好。

SWE-bench Pro是升級版,用的是模型沒見過的"私有倉庫"代碼,更像真實干活的場景。

Terminal-Bench測的是在命令行下干活的能力,寫腳本、跑工具鏈那種。

圖:編程三項核心測評對比(數值為百分比,越高越強)

編程能力橫向對比 SWE-bench Verified 修真實 bug 的能力 Opus 4.7 87.6 第一 Opus 4.6 80.8 GPT-5.4 · 未公布 Gemini 3.1 Pro 80.6 SWE-bench Pro 在沒見過的代碼庫里干活 Opus 4.7 64.3 第一 GPT-5.4 57.7 Gemini 3.1 Pro 54.2 Opus 4.6 53.4 Terminal-Bench 2.0 唯一被反超的一項 GPT-5.4 75.1 Opus 4.7 69.4

如果你用 Claude 干過真實項目你懂這種體感差異:上一代的模型可能是寫兩行你得看一行,這一代是大致能把活交出去。

差的不是精度,差的是"能不能放手"。

Terminal-Bench 這項 GPT-5.4 領先大約 5 個點。不過 Anthropic 在 System Card 里備注了一句,OpenAI 用的是他們自己的定制評測框架,不完全可比。

這個話術你品品,意思是"我們沒輸但也沒贏,先這么著"。

總體上,寫代碼這件事,Opus 4.7 目前是第一梯隊里跑最快的那個

02看屏幕:第一次真的能看清

這次升級幅度最離譜的是視覺。

ScreenSpot-Pro測的是模型看屏幕截圖、識別里面 UI 元素的能力,直接決定它能不能替你操作電腦。

CharXiv Reasoning測的是看學術圖表并推理的能力,論文里那些密密麻麻的曲線它能不能看懂。

OSWorld綜合測整體計算機操作能力,模擬你把電腦扔給它讓它干活。

圖:視覺能力三項對比,三項全是 Opus 4.7 第一

測評項目 Opus 4.7 Opus 4.6 GPT-5.4 ScreenSpot-Pro 看屏幕找 UI 元素 +21.8 79.5 57.7 未公布 CharXiv Reasoning 看學術圖表做推理 +13.0 82.1 69.1 未公布 OSWorld 綜合操作電腦能力 +5.3 78.0 72.7 75.0 圖像輸入像素上限提到長邊 2576(約 375 萬像素) 是前代的三倍多

三個測評 4.7 全是第一名。

背后的技術動作是圖像輸入像素上限一口氣提到長邊 2576 像素(約 375 萬像素),是之前的三倍多。

以前你給 Claude 看一張高分辨率截圖,它看到的相當于戴著老花鏡看 4K 電視,糊的地方全靠猜。

現在它真的能看清每一個像素。

對做 RPA、自動化測試、操作電腦類 agent 的人來說,這一檔升級可能比編程提升的含金量還高

以前"讓 AI 看圖干活"基本是玩具級別,現在是真的可以放生產了。

03做文檔報表:吊打同行

這部分是我覺得對普通職場人最有感的一塊。

OfficeQA 和 OfficeQA Pro測模型處理真實辦公文檔的能力:看表格、讀報告、從一堆郵件里抽信息那種。

Finance Agent測的是給它一個金融分析任務,它能不能獨立做下來。

圖:OfficeQA Pro 對比,4.7 是斷層第一

OfficeQA Pro · 處理復雜辦公文檔 80 60 40 20 80.6 Opus 4.7 57.1 Opus 4.6 51.1 GPT-5.4 42.9 Gemini 3.1 整份 System Card 里單項差距最大的一塊

4.7 比 GPT-5.4 高將近 30 分,Gemini 3.1 Pro 更是掉出一大截。差不多是吊打。

跟自家上一代比也是跳了 23 個點,是整個 System Card 里單項提升最大的一個。

這個能力域的提升對你我更實在。SWE-bench 漲多少跟普通人沒關系,但 Office 類任務做得好不好,直接決定一個大模型能不能接你手里的 Excel、財報、合同審閱。

說實話我看到這組數據時愣了一下。之前大家聊 AI 做表格那種活,一直默認是 GPT-5 系列最擅長。這一版 4.7 在這塊直接翻了篇。

04搜東西做研究:反而退步了

寫到這你可能以為 4.7 全面開掛。沒這么美好。

有一項硬指標 4.7 不光沒進步,還退步了

BrowseComp測的是模型聯網做深度搜索、查資料、交叉驗證的能力,直接跟"深度研究"這種產品強相關。

圖:BrowseComp 排名,4.7 反而是墊底的

BrowseComp · 聯網搜索查資料能力 1 GPT-5.4 Pro 89.3 2 Gemini 3.1 Pro 85.9 3 Opus 4.6(上一代) 83.7 4 GPT-5.4 82.7 5 Opus 4.7(最新) 79.3 ↓ 退步 4.4 4.7 比自家上一代退步 4.4 分,被 GPT-5.4 Pro 甩開 10 分

Anthropic 在 System Card 里沒怎么解釋這個回退。我猜測可能是他們這次把精力壓在了代碼和操作電腦上,搜索這塊暫時讓位了。

對比參照是學術閉卷考(Humanity's Last Exam)這項 4.7 依然是第一。說明"讀東西用腦子想"沒退步,退的是"出門查資料"。

如果你主要用 AI 幫你做深度調研、寫行業報告,4.7 這一版可能不如留著 Opus 4.6。

05說話可信度:一體兩面

最后這塊最有意思,也是 System Card 里最長的章節。

圖:可信度指標,兩項大進步、兩項倒退

說話可信度 · 進步與倒退 進步 抗惡意指令注入 被攻破的比例 Opus 4.6 25.9% Opus 4.7 2.3% ↓ 一個數量級 觀點穩定性 被套話后的飄移(7分制) Opus 4.0 3.11 Opus 4.7 0.66 ↓ 幾乎不飄 倒退 拒絕協助 AI 安全研究 被拒的比例 4.6 → 12% 4.7 → 33% ↑ 翻了近三倍 有害請求拒絕率 輕微下滑 原因:對受管制物質的 "減害建議"更愿意詳細說 官方總結:大體靠譜,局部有坑

抗惡意指令注入的能力暴漲。上一代在編碼場景下會被攻破的比例是四次有一次,這一代砍到百次里兩次,加上額外保護之后更是趨近于零。

幻覺率全系最低。4.7 的幻覺率比自家上一代低,甚至比被雪藏的 Mythos Preview 還低一點。

這貨終于學會說"我不知道",也學會了堅持自己的判斷。

但有得有失。

拒絕協助 AI 安全研究的比例翻了近三倍。這個挺諷刺:訓來更嚴謹的模型,反而更不愿意幫搞 AI 安全研究的人。

06它對自己,挺滿意

System Card 第 7 章 Model Welfare 里有個想單拎出來說的發現。

Anthropic 做了一批自動化訪談,讓 4.7 評價自己當下的處境。

圖:一個反直覺的 4.7

對自身處境的正面評價 7 分制,越高越正面 歷代最高 所有 Claude 模型之最 但同時 99% 的自述帶著免責聲明 "這可能來自訓練而非真正的內省" 一個知道自己可能在被測評的 AI 回答還要反復加免責,同時又給自己打出最高分 這是什么畫面?

坦率說,讀完這段我愣了一下。

我也說不好這是個什么情況。但它被 Anthropic 當成一件正經事寫進了官方 System Card,這事本身就很 Anthropic。

07升級前,先看這三個坑

最后給要升級的朋友幾個實用提醒。

圖:升級 4.7 之前必須知道的三個坑

1 定價沒變,賬單可能變 tokenizer 換了新的 同樣的輸入,要用 1.0 到 1.35 倍的 token 建議先在真實流量上跑一次對比再決定是否切 2 新檔位 + 新命令 effort 多了一檔叫 xhigh 夾在 high 和 max 中間,Claude Code 默認拉到這檔 新增嚴格代碼審查命令,Pro/Max 送三次免費試用 3 最容易踩的一個 指令遵循變嚴了 你給 4.6 寫的 prompt 可能會出意外結果 以前它會"自作主張"略過模糊要求,現在字面執行 建議:別急著全切,先拿一路流量跑對比

Opus 4.7 不是最強的那個,但它是當前最能干活的那個。232 頁 System Card 讀后感

你現在主力用哪個模型?升 4.7 了嗎?評論區聊聊你的體感覺得有用 → 點個??在看轉給還不知道的朋友點個贊 告訴我你看完了關注「AI范兒」,下次更新第一時間收到

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
baby帶小海綿現身港迪,素顏弓著背玩手機仍好美,3部手機搶鏡

baby帶小海綿現身港迪,素顏弓著背玩手機仍好美,3部手機搶鏡

柒佰娛
2026-06-26 09:41:09
江蘇600分以上40931人,看到這個數字我沉默了

江蘇600分以上40931人,看到這個數字我沉默了

馬蹄燙嘴說美食
2026-06-26 10:06:40
火箭軍黨委發表署名文章

火箭軍黨委發表署名文章

政知新媒體
2026-06-26 08:52:28
醫生:希望你的血脂報告里,永遠不要出現這3項異常

醫生:希望你的血脂報告里,永遠不要出現這3項異常

華庭講美食
2026-06-23 16:28:06
全球首款0.7nm芯片發布

全球首款0.7nm芯片發布

芯智訊
2026-06-25 20:05:25
空調“鋁代銅”爭議持續發酵 格力、松下、海爾三家立場清晰

空調“鋁代銅”爭議持續發酵 格力、松下、海爾三家立場清晰

鰲頭財經
2026-06-23 17:41:39
大難臨頭各自飛!見福建艦現身南海:美國也不叫了,臺獨也不跳了

大難臨頭各自飛!見福建艦現身南海:美國也不叫了,臺獨也不跳了

騷年先鋒
2026-06-26 02:24:00
金價一夜大變天!6月26日,中國黃金最新價格、人民幣黃金最新價格

金價一夜大變天!6月26日,中國黃金最新價格、人民幣黃金最新價格

戶外釣魚哥阿旱
2026-06-26 13:56:15
“建議取消私生子繼承權!”專家話炸翻全網:憑什么要為背叛買單

“建議取消私生子繼承權!”專家話炸翻全網:憑什么要為背叛買單

一絲不茍的法律人
2026-06-25 11:22:53
極右翼“集大成者”,贏下哥倫比亞大選

極右翼“集大成者”,贏下哥倫比亞大選

鳳凰WEEKLY
2026-06-25 14:50:33
Here we go!羅馬諾:森林中場埃利奧特-安德森1.3億鎊加盟曼城

Here we go!羅馬諾:森林中場埃利奧特-安德森1.3億鎊加盟曼城

懂球帝
2026-06-26 05:10:11
發現一個有趣的現象:不管信不信,男人過了50,基本都有以下特征

發現一個有趣的現象:不管信不信,男人過了50,基本都有以下特征

小書蟲媽媽
2026-06-25 12:36:46
全網看哭!698分高考少年查分當場崩潰:沒人撐腰的孩子

全網看哭!698分高考少年查分當場崩潰:沒人撐腰的孩子

手工制作阿愛
2026-06-26 02:32:17
《火遮眼》超越《哪吒》,北美票房近4000萬,目前勉強回本

《火遮眼》超越《哪吒》,北美票房近4000萬,目前勉強回本

影視高原說
2026-06-25 14:59:30
委內瑞拉強震前后最新衛星圖像對比,重災區建筑損毀嚴重,委代總統視察現場,幸存者:就像恐怖片

委內瑞拉強震前后最新衛星圖像對比,重災區建筑損毀嚴重,委代總統視察現場,幸存者:就像恐怖片

揚子晚報
2026-06-26 14:41:32
央視宋世雄,晚年選擇87歲獨居北京,這一決定刺痛無數中國式家庭

央視宋世雄,晚年選擇87歲獨居北京,這一決定刺痛無數中國式家庭

人生錄
2026-06-22 16:37:13
毛主席為何頻繁更換貼身警衛員?越是忠心的人,越會被主動調離

毛主席為何頻繁更換貼身警衛員?越是忠心的人,越會被主動調離

小莜讀史
2026-06-25 15:45:24
武漢監委原委員之子在港洗錢6400萬!辯稱“賣比特幣”被當庭駁回

武漢監委原委員之子在港洗錢6400萬!辯稱“賣比特幣”被當庭駁回

聽心堂
2026-06-25 09:16:46
伊朗專家:全世界都要感謝伊朗,是伊朗治好了全世界的美軍恐懼癥

伊朗專家:全世界都要感謝伊朗,是伊朗治好了全世界的美軍恐懼癥

農夫史記
2026-06-22 20:56:04
英國插手臺島第2天,中國在聯合國發聲:中國支持阿根廷對馬島主權

英國插手臺島第2天,中國在聯合國發聲:中國支持阿根廷對馬島主權

阿龍聊軍事
2026-06-26 13:46:39
2026-06-26 16:19:00
AI范兒 incentive-icons
AI范兒
AI范兒是一個專注于人工智能領域的資訊和學習平臺,提供最新的人工智能資訊
772文章數 679關注度
往期回顧 全部

科技要聞

美國政府要求OpenAI分批發布GPT-5.6

頭條要聞

男子20多年前考入大學后不滿專業輟學 在山林中被發現

頭條要聞

男子20多年前考入大學后不滿專業輟學 在山林中被發現

體育要聞

三球換里德:森林狼和黃蜂誰更癲?!

娛樂要聞

劉嘉玲想放棄梁朝偉,沒有自理能力

財經要聞

懸在科技頭上的達摩克利斯之劍

汽車要聞

老板們的新座駕!65萬元起,尊界V800/V680開啟預訂

態度原創

教育
本地
健康
手機
公開課

教育要聞

天工大、暨南、西南交大等招生政策解讀,山東考生報考位次大公開

本地新聞

2026世界杯全勤太難?這份保姆級攻略請收好

醫生如何快速診斷腦梗和腦出血?

手機要聞

618最后一周排名:華為奪冠,蘋果第二,vivo、OPPO、小米呢?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版