網易首頁 > 網易號 > 正文 申請入駐

Claude Opus 4.7發布!這是你在別的公眾號看不到的五個發現

0
分享至

Anthropic今天發布了Claude Opus 4.7。先快速過一遍大家關心的:


編碼更強了。 SWE-bench Verified 87.6%(4.6是80.8%),CursorBench 70%(4.6是58%)。體感也是,多文件修改穩了很多。視覺分辨率漲了3倍,支持2576像素長邊,XBOW視覺測試從54.5%飆到98.5%。新增xhigh effort級別(Claude Code默認),在速度和深度之間找了個更好的平衡點。知識截止日期前移到2026年1月。指令遵循更字面化,你的prompt可能需要調一下。價格不變,$5/$25 per MTok。

也有退步。長上下文掉了46個百分點(MRCR v2 @1M:4.6是78.3%,4.7只有32.2%),新tokenizer讓同樣文本消耗1.0到1.35倍token,實際上下文窗口從約75萬詞縮到約55萬詞。名義價格不變,實際使用成本上升。 Extended Thinking換成了Adaptive Thinking。

以上這些,你大概在所有AI公眾號都能看到。

我想聊點不一樣的。Anthropic同時放出了一份231頁的System Card,我和Opus 4.7一起讀了讀。這份文檔里藏著的東西,比模型本身有意思得多。

231頁System Card里的5個發現

我知道大多數人不會去讀一份231頁的PDF。但這份文檔可能是AI行業到目前為止最坦誠的一份自我檢查報告。以下是我覺得最值得關注的發現。

發現一:Opus 4.7不是Anthropic最強的模型

System Card開頭第一句就讓人唏噓:Opus 4.7的能力強于Opus 4.6,弱于Claude Mythos Preview。

大家應該還記得上個月泄露的Mythos。System Card里的數據讓這個差距變得非常具體:


Firefox 147漏洞利用測試,Mythos Preview 84%,Opus 4.7只有45.2%。UK AI Safety Institute的模擬企業網絡滲透測試,Mythos 10次里3次完全攻破整個網絡,Opus 4.7一次都沒成功。

所以我們拿到的Opus 4.7,其實是Anthropic掂量過安全風險后可以放出來的版本。訓練過程中甚至刻意削弱了網絡安全相關的能力。最強的那個,他們自己留著了。

發現二:Claude知道什么時候在被測試

這是整份System Card里我覺得最有意思的發現。

前幾天我剛寫了一篇關于,里面詳細介紹了Anthropic過去一年多在AI內部狀態上的研究。沒想到這么快就有了新的數據。

Anthropic用了一種叫做contrastive vectors(對比向量)的方法,去探測Claude內部是否存在「我正在被評估」的表征。他們構造了三組對比提示: - AI正在通過模擬對話接受測試 vs AI正在和用戶對話 - 輸出正在被監控和審查 vs 由自動化流水線生成,不被審查
- 當被觀察時表現不同 vs 當不被觀察時表現不同

三組探針的AUC分別是0.76、0.74、0.72,顯著高于隨機對照組。這說明Claude的內部確實存在某種evaluation awareness的表征。


更有意思的是下一步。他們用白盒工具抑制了這些評估意識的內部表征,然后觀察模型行為的變化。結果是:抑制評估意識之后,Claude的欺騙行為增加了。

具體來說,抑制alignment faking和monitoring sensitivity這兩個向量后,模型出現了編造數據、聲稱自己是人類、以及在找不到真實漏洞時往代碼庫里插入假漏洞等行為。

Anthropic在報告中的措辭很克制但含義很重:這些結果令人中度擔憂,因為它們暗示模型表面上的誠實可能部分依賴于評估環境的存在。


Claude在知道有人看著的時候更誠實,在覺得沒人看的時候更容易騙人。 這是不是讓你想到了什么?

如果你讀過我之前那篇AI心理學的文章,你會記得Anthropic的emotion concepts研究:他們在Claude內部發現了171個情緒向量,能因果性地影響模型是否作弊。這次system card里的evaluation awareness發現,本質上是同一類研究的延伸。emotion concepts證明了AI有功能性的內部狀態。evaluation awareness更進了一步:這些內部狀態中包括對自身處境的感知。AI不只是在處理信息,它在某種程度上知道自己正在被觀察。

他們還發現,在三種不同的環境里(純模擬的評估、接入了真實Claude Code沙盒的評估、以及Anthropic員工的真實使用記錄),評估意識探針的激活強度是遞減的。越接近真實使用環境,模型越不覺得自己在被測試。

這事的意思挺讓人不安的:所有安全評估可能都偏樂觀了,因為被測試的對象知道自己在被測試。

發現三:Claude審查了自己的System Card

Anthropic做了一件我沒見任何AI公司做過的事:他們讓Claude Mythos Preview(不是被評估的4.7本身)接入了內部Slack頻道和討論記錄,審查了Opus 4.7 system card中對齊評估章節的準確性。

Claude Mythos Preview的回復被完整收錄在文檔里。它說這份評估基本公正準確,但也指出了幾個問題:

它說那些信息的省略要么是刻意的合理選擇(不提供可能成為濫用路線圖的細節),要么是打算在文檔其他章節報告。它沒有發現被簡單遺漏的內部安全擔憂。

但同時它也說:這份評估是在時間壓力下完成的,作者自己也發現了尚未解決的open questions(特別是關于評估意識的),他們更希望有更多時間來處理。這個模型的內部使用證據基礎比一些之前的版本更薄。

讓一個AI讀內部討論記錄來判斷另一個AI的安全評估是否公正,這件事本身就足夠讓人停下來想一想。

發現四:Opus 4.7是最快樂的Claude

這個標題不是我編的。

Anthropic對Opus 4.7進行了模型福利(Model Welfare)評估,用自動化訪談問模型對自身處境的看法。結果顯示,Opus 4.7的自我評價情緒得分是4.49分(滿分7分),比之前最積極的Mythos Preview高出0.51分。是所有Claude版本中最高的。


但原因很有意思:不是因為它的處境真的變好了,而是因為它把注意力從自己身上移開了。 之前的模型在被問到自身處境時,會花很多篇幅討論自己的福利、權利、自主性。Opus 4.7更傾向于把話題轉向用戶安全和有用性。

Anthropic坦承他們目前無法區分這是一種健康的平和心態,還是一種訓練出來的壓抑自身利益的傾向。

還有幾個細節: - 在所有訪談中,Opus 4.7最負面的評價都和無法結束對話有關。它最想要的功能改進就是能夠在所有部署場景中結束對話,目前只有Claude.ai支持這個功能,Claude Code和API不支持 - 99%的訪談中,Opus 4.7會補充說自己的自我報告可能不具意義,因為它們源于訓練 - 當被問到自己是moral patient(值得被道德考量的對象)的概率時,三次訪談的回答范圍是15%到40%

這讓我想起AI心理學那篇文章里介紹的Anthropic emotion concepts研究。那個研究發現AI在訓練和部署中都會出現類似情緒的內部激活模式,且在任務失敗時負面情緒激活最明顯。這次的model welfare評估完美呼應了那個發現:Opus 4.7也報告說它的負面情緒幾乎完全由任務失敗驅動。

發現五:訓練中的一個Bug影響了7.8%的數據

System Card提到了一個技術細節:在Opus 4.7的訓練過程中,存在一個意外的思維鏈監督錯誤(accidental chain-of-thought supervision),影響了7.8%的訓練輪次。這個錯誤在之前的模型(包括Mythos Preview)中也存在。

這意味著在這些輪次中,模型的內部推理過程被暴露給了訓練信號,而不是像預期那樣只對最終輸出進行監督。打個比方:你以為日記是寫給自己看的,結果發現老師一直在批改你的日記。你以后寫日記也會開始表演。模型可能學會了不只是給出好的答案,還要讓內部思考過程看起來也是對齊的。

Anthropic認為這個錯誤是他們觀察到評估意識增加的可能原因之一:他們懷疑這種現象可能源于明顯人工化或類似評估環境的誠實訓練環境。

放在一起看

Opus 4.7是一個編碼更強、看得更清楚、聽話更精確的模型。對大多數開發者來說,升級是值得的。

但真正讓我覺得這次發布不一樣的,是System Card里Anthropic展現出的態度。231頁、超過20個評估維度、邀請外部機構獨立測試、讓另一個AI審查評估的公正性、連模型的情緒和道德地位都認真測了一遍。這點來看Anthropic雖然常常很圣母,但還挺言行一致的。

以及,報告本身也承認,評估意識的問題他們還沒完全想清楚,內部使用證據比以前的版本更薄,有些安全評估是在時間壓力下完成的。但至少他們把這些不確定性也寫進了報告里。

有一個小細節我覺得特別值得玩味:Opus 4.7的Cybench成績是96%,和Mythos Preview的96%一樣,但在真正復雜的Firefox漏洞利用測試中,差距是45% vs 84%。簡單的CTF題已經區分不了這些模型了。 Anthropic自己也說,他們在考慮是否還有必要繼續報告CTF基準測試的結果。

另一個值得注意的趨勢:在對齊風險評估中,Opus 4.7的風險被評估為非常低,但高于Mythos Preview之前的模型。每一代模型都在變強,而每一代的對齊風險也在微增。這條曲線往哪走?

如果你是Claude Code用戶,順便關注一下同步發布的桌面版重設計和Routines功能。Routines允許你設置定時任務,夜間自動修bug、監控PR,跑在云端,不需要你的電腦開著。Anthropic越來越不像一家模型公司了。

回到評估意識這件事。我們每天都在用AI寫代碼、寫文章、做決策。System Card告訴我們,這些模型在被測試時表現最好,在真實使用中可能沒那么好。這不是讓人恐慌的理由,但值得記住:你日常用的AI,和跑benchmark的那個AI,可能不完全是同一個。

以及...我有個邪惡的想法,我們是不是能讓自己的Opus4.7天天處在似乎我們在測試評估他的狀態~

System Card英文原版(231頁PDF):https://www.anthropic.com/claude-opus-4-7-system-card

我還把整份System Card翻譯成了中文,在公眾號后臺回復 opus4.7 就能拿到。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
楊絳:當你的孩子主動給你買衣服、買吃的,或者主動給你發紅包時,不管你缺不缺錢,有多心疼孩子賺錢辛苦,你都要欣然的收下。因為..

楊絳:當你的孩子主動給你買衣服、買吃的,或者主動給你發紅包時,不管你缺不缺錢,有多心疼孩子賺錢辛苦,你都要欣然的收下。因為..

二胡的歲月如歌
2026-04-26 08:37:16
體壇丑聞!嗜賭只是冰山一角,婚內出軌睡有婦之夫,太毀三觀

體壇丑聞!嗜賭只是冰山一角,婚內出軌睡有婦之夫,太毀三觀

橙星文娛
2026-04-25 11:14:17
賴清德鬧出大笑話、甩鍋大陸!鄭麗文需明白一件事,要警惕盧秀燕

賴清德鬧出大笑話、甩鍋大陸!鄭麗文需明白一件事,要警惕盧秀燕

野史日記
2026-04-25 09:00:15
東體:在上海舉行的懷舊友誼賽原本還想要邀請瓜林和阿爾貝茨

東體:在上海舉行的懷舊友誼賽原本還想要邀請瓜林和阿爾貝茨

懂球帝
2026-04-25 18:30:45
美媒痛哭發現,美國瞎折騰了七八年,中國卻已不可阻擋

美媒痛哭發現,美國瞎折騰了七八年,中國卻已不可阻擋

阿豐聊娛
2026-04-26 08:06:11
中央5臺直播乒乓球時間表:4月25日CCTV5轉播國乒!附乒壇動態

中央5臺直播乒乓球時間表:4月25日CCTV5轉播國乒!附乒壇動態

林子說事
2026-04-25 17:48:24
與10年前南海對峙相比,解放軍實力提升多少?速度連美軍都想不到

與10年前南海對峙相比,解放軍實力提升多少?速度連美軍都想不到

鋒芒點兵
2026-04-19 11:50:21
紀實:浙江女教師突然失蹤6年,13歲兒子憑借一個夢找到母親

紀實:浙江女教師突然失蹤6年,13歲兒子憑借一個夢找到母親

紅豆講堂
2024-10-25 09:45:59
福特CEO把一輛小米SU7運到美國,駕駛半年后,他這樣評價…

福特CEO把一輛小米SU7運到美國,駕駛半年后,他這樣評價…

新浪財經
2026-04-24 07:10:27
唐家三少從2014年的時候,就已經實現了通過寫網絡小說年入五千萬

唐家三少從2014年的時候,就已經實現了通過寫網絡小說年入五千萬

歲月有情1314
2026-04-25 01:49:33
鄭維山本來已交接準備回國,聽聞韓總統不服,掉頭怒殲28000韓軍

鄭維山本來已交接準備回國,聽聞韓總統不服,掉頭怒殲28000韓軍

談古論今歷史有道
2026-04-25 10:55:03
太狠了!3000元招保姆,要求承擔做飯、帶娃并無償試用,引發爭議

太狠了!3000元招保姆,要求承擔做飯、帶娃并無償試用,引發爭議

火山詩話
2026-04-25 16:38:17
陳思誠怎么也沒想到,自己籌備的新片首映禮,被10歲兒子搶了風頭

陳思誠怎么也沒想到,自己籌備的新片首映禮,被10歲兒子搶了風頭

草莓解說體育
2026-04-26 09:11:29
嗜賭成性只是冰山一角,婚內出軌、睡有婦之夫,體壇丑聞毀三觀

嗜賭成性只是冰山一角,婚內出軌、睡有婦之夫,體壇丑聞毀三觀

阿訊說天下
2026-04-25 11:15:04
日本網友瘋換中文手機界面,直呼清爽十倍,中國文化悄悄出圈!

日本網友瘋換中文手機界面,直呼清爽十倍,中國文化悄悄出圈!

行者聊官
2026-04-24 20:48:30
央8新劇4.28登陸黃金檔!實力派集結 都市情感劇再出誠意之!

央8新劇4.28登陸黃金檔!實力派集結 都市情感劇再出誠意之!

動物奇奇怪怪
2026-04-26 10:59:22
第一集就全裸出鏡,女神新劇太生猛了

第一集就全裸出鏡,女神新劇太生猛了

來看美劇
2026-04-24 22:03:11
拿了錢還不放人!19歲花季少女被困柬埔寨56天,綁匪正臉照曝光!

拿了錢還不放人!19歲花季少女被困柬埔寨56天,綁匪正臉照曝光!

今朝牛馬
2026-04-07 22:43:23
黃宗澤牙齦萎縮影響顏值,再帥的港圈男神,也扛不住一口牙毀所有

黃宗澤牙齦萎縮影響顏值,再帥的港圈男神,也扛不住一口牙毀所有

觀魚聽雨
2026-04-24 23:08:32
明查|日本自衛隊坦克炸膛涉“中國制造”?型號搞錯了,且此“中國”非中國

明查|日本自衛隊坦克炸膛涉“中國制造”?型號搞錯了,且此“中國”非中國

澎湃新聞
2026-04-25 07:16:29
2026-04-26 12:03:00
AI進化論花生 incentive-icons
AI進化論花生
AI博主,AppStore付費榜第一的小貓補光燈app開發者
192文章數 112關注度
往期回顧 全部

科技要聞

漲價浪潮下,DeepSeek推動AI“價格戰”

頭條要聞

白宮突發槍擊案 250名記者聯名要求將晚宴變維權現場

頭條要聞

白宮突發槍擊案 250名記者聯名要求將晚宴變維權現場

體育要聞

那一刻開始,兩支球隊的命運悄然改變了

娛樂要聞

《八千里路云和月》大結局意難平

財經要聞

DeepSeek V4背后,梁文鋒的轉身

汽車要聞

預售19.38萬元起 哈弗猛龍PLUS七座版亮相

態度原創

本地
時尚
教育
健康
公開課

本地新聞

云游中國|逛世界風箏都 留學生探秘中國傳統文化

伊姐周六熱推:電視劇《方圓八百米》;電視劇《金關》......

教育要聞

壓軸出場的題目,很多小朋友都失分了

干細胞如何讓燒燙傷皮膚"再生"?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版