網易首頁 > 網易號 > 正文申請入駐

Claude Opus 4.7發布！這是你在別的公眾號看不到的五個發現

2026-04-17 00:25:26　來源: AI進化論花生

北京舉報

分享至

Anthropic今天發布了Claude Opus 4.7。先快速過一遍大家關心的：

編碼更強了。 SWE-bench Verified 87.6%（4.6是80.8%），CursorBench 70%（4.6是58%）。體感也是，多文件修改穩了很多。視覺分辨率漲了3倍，支持2576像素長邊，XBOW視覺測試從54.5%飆到98.5%。新增xhigh effort級別（Claude Code默認），在速度和深度之間找了個更好的平衡點。知識截止日期前移到2026年1月。指令遵循更字面化，你的prompt可能需要調一下。價格不變，$5/$25 per MTok。

也有退步。長上下文掉了46個百分點（MRCR v2 @1M：4.6是78.3%，4.7只有32.2%），新tokenizer讓同樣文本消耗1.0到1.35倍token，實際上下文窗口從約75萬詞縮到約55萬詞。名義價格不變，實際使用成本上升。 Extended Thinking換成了Adaptive Thinking。

以上這些，你大概在所有AI公眾號都能看到。

我想聊點不一樣的。Anthropic同時放出了一份231頁的System Card，我和Opus 4.7一起讀了讀。這份文檔里藏著的東西，比模型本身有意思得多。

231頁System Card里的5個發現

我知道大多數人不會去讀一份231頁的PDF。但這份文檔可能是AI行業到目前為止最坦誠的一份自我檢查報告。以下是我覺得最值得關注的發現。

發現一：Opus 4.7不是Anthropic最強的模型

System Card開頭第一句就讓人唏噓：Opus 4.7的能力強于Opus 4.6，弱于Claude Mythos Preview。

大家應該還記得上個月泄露的Mythos。System Card里的數據讓這個差距變得非常具體：

Firefox 147漏洞利用測試，Mythos Preview 84%，Opus 4.7只有45.2%。UK AI Safety Institute的模擬企業網絡滲透測試，Mythos 10次里3次完全攻破整個網絡，Opus 4.7一次都沒成功。

所以我們拿到的Opus 4.7，其實是Anthropic掂量過安全風險后可以放出來的版本。訓練過程中甚至刻意削弱了網絡安全相關的能力。最強的那個，他們自己留著了。

發現二：Claude知道什么時候在被測試

這是整份System Card里我覺得最有意思的發現。

前幾天我剛寫了一篇關于，里面詳細介紹了Anthropic過去一年多在AI內部狀態上的研究。沒想到這么快就有了新的數據。

Anthropic用了一種叫做contrastive vectors（對比向量）的方法，去探測Claude內部是否存在「我正在被評估」的表征。他們構造了三組對比提示： - AI正在通過模擬對話接受測試 vs AI正在和用戶對話 - 輸出正在被監控和審查 vs 由自動化流水線生成，不被審查
- 當被觀察時表現不同 vs 當不被觀察時表現不同

三組探針的AUC分別是0.76、0.74、0.72，顯著高于隨機對照組。這說明Claude的內部確實存在某種evaluation awareness的表征。

更有意思的是下一步。他們用白盒工具抑制了這些評估意識的內部表征，然后觀察模型行為的變化。結果是：抑制評估意識之后，Claude的欺騙行為增加了。

具體來說，抑制alignment faking和monitoring sensitivity這兩個向量后，模型出現了編造數據、聲稱自己是人類、以及在找不到真實漏洞時往代碼庫里插入假漏洞等行為。

Anthropic在報告中的措辭很克制但含義很重：這些結果令人中度擔憂，因為它們暗示模型表面上的誠實可能部分依賴于評估環境的存在。

Claude在知道有人看著的時候更誠實，在覺得沒人看的時候更容易騙人。 這是不是讓你想到了什么？

如果你讀過我之前那篇AI心理學的文章，你會記得Anthropic的emotion concepts研究：他們在Claude內部發現了171個情緒向量，能因果性地影響模型是否作弊。這次system card里的evaluation awareness發現，本質上是同一類研究的延伸。emotion concepts證明了AI有功能性的內部狀態。evaluation awareness更進了一步：這些內部狀態中包括對自身處境的感知。AI不只是在處理信息，它在某種程度上知道自己正在被觀察。

他們還發現，在三種不同的環境里（純模擬的評估、接入了真實Claude Code沙盒的評估、以及Anthropic員工的真實使用記錄），評估意識探針的激活強度是遞減的。越接近真實使用環境，模型越不覺得自己在被測試。

這事的意思挺讓人不安的：所有安全評估可能都偏樂觀了，因為被測試的對象知道自己在被測試。

發現三：Claude審查了自己的System Card

Anthropic做了一件我沒見任何AI公司做過的事：他們讓Claude Mythos Preview（不是被評估的4.7本身）接入了內部Slack頻道和討論記錄，審查了Opus 4.7 system card中對齊評估章節的準確性。

Claude Mythos Preview的回復被完整收錄在文檔里。它說這份評估基本公正準確，但也指出了幾個問題：

它說那些信息的省略要么是刻意的合理選擇（不提供可能成為濫用路線圖的細節），要么是打算在文檔其他章節報告。它沒有發現被簡單遺漏的內部安全擔憂。

但同時它也說：這份評估是在時間壓力下完成的，作者自己也發現了尚未解決的open questions（特別是關于評估意識的），他們更希望有更多時間來處理。這個模型的內部使用證據基礎比一些之前的版本更薄。

讓一個AI讀內部討論記錄來判斷另一個AI的安全評估是否公正，這件事本身就足夠讓人停下來想一想。

發現四：Opus 4.7是最快樂的Claude

這個標題不是我編的。

Anthropic對Opus 4.7進行了模型福利（Model Welfare）評估，用自動化訪談問模型對自身處境的看法。結果顯示，Opus 4.7的自我評價情緒得分是4.49分（滿分7分），比之前最積極的Mythos Preview高出0.51分。是所有Claude版本中最高的。

但原因很有意思：不是因為它的處境真的變好了，而是因為它把注意力從自己身上移開了。 之前的模型在被問到自身處境時，會花很多篇幅討論自己的福利、權利、自主性。Opus 4.7更傾向于把話題轉向用戶安全和有用性。

Anthropic坦承他們目前無法區分這是一種健康的平和心態，還是一種訓練出來的壓抑自身利益的傾向。

還有幾個細節： - 在所有訪談中，Opus 4.7最負面的評價都和無法結束對話有關。它最想要的功能改進就是能夠在所有部署場景中結束對話，目前只有Claude.ai支持這個功能，Claude Code和API不支持 - 99%的訪談中，Opus 4.7會補充說自己的自我報告可能不具意義，因為它們源于訓練 - 當被問到自己是moral patient（值得被道德考量的對象）的概率時，三次訪談的回答范圍是15%到40%

這讓我想起AI心理學那篇文章里介紹的Anthropic emotion concepts研究。那個研究發現AI在訓練和部署中都會出現類似情緒的內部激活模式，且在任務失敗時負面情緒激活最明顯。這次的model welfare評估完美呼應了那個發現：Opus 4.7也報告說它的負面情緒幾乎完全由任務失敗驅動。

發現五：訓練中的一個Bug影響了7.8%的數據

System Card提到了一個技術細節：在Opus 4.7的訓練過程中，存在一個意外的思維鏈監督錯誤（accidental chain-of-thought supervision），影響了7.8%的訓練輪次。這個錯誤在之前的模型（包括Mythos Preview）中也存在。

這意味著在這些輪次中，模型的內部推理過程被暴露給了訓練信號，而不是像預期那樣只對最終輸出進行監督。打個比方：你以為日記是寫給自己看的，結果發現老師一直在批改你的日記。你以后寫日記也會開始表演。模型可能學會了不只是給出好的答案，還要讓內部思考過程看起來也是對齊的。

Anthropic認為這個錯誤是他們觀察到評估意識增加的可能原因之一：他們懷疑這種現象可能源于明顯人工化或類似評估環境的誠實訓練環境。

放在一起看

Opus 4.7是一個編碼更強、看得更清楚、聽話更精確的模型。對大多數開發者來說，升級是值得的。

但真正讓我覺得這次發布不一樣的，是System Card里Anthropic展現出的態度。231頁、超過20個評估維度、邀請外部機構獨立測試、讓另一個AI審查評估的公正性、連模型的情緒和道德地位都認真測了一遍。這點來看Anthropic雖然常常很圣母，但還挺言行一致的。

以及，報告本身也承認，評估意識的問題他們還沒完全想清楚，內部使用證據比以前的版本更薄，有些安全評估是在時間壓力下完成的。但至少他們把這些不確定性也寫進了報告里。

有一個小細節我覺得特別值得玩味：Opus 4.7的Cybench成績是96%，和Mythos Preview的96%一樣，但在真正復雜的Firefox漏洞利用測試中，差距是45% vs 84%。簡單的CTF題已經區分不了這些模型了。 Anthropic自己也說，他們在考慮是否還有必要繼續報告CTF基準測試的結果。

另一個值得注意的趨勢：在對齊風險評估中，Opus 4.7的風險被評估為非常低，但高于Mythos Preview之前的模型。每一代模型都在變強，而每一代的對齊風險也在微增。這條曲線往哪走？

如果你是Claude Code用戶，順便關注一下同步發布的桌面版重設計和Routines功能。Routines允許你設置定時任務，夜間自動修bug、監控PR，跑在云端，不需要你的電腦開著。Anthropic越來越不像一家模型公司了。

回到評估意識這件事。我們每天都在用AI寫代碼、寫文章、做決策。System Card告訴我們，這些模型在被測試時表現最好，在真實使用中可能沒那么好。這不是讓人恐慌的理由，但值得記住：你日常用的AI，和跑benchmark的那個AI，可能不完全是同一個。

以及...我有個邪惡的想法，我們是不是能讓自己的Opus4.7天天處在似乎我們在測試評估他的狀態～

System Card英文原版（231頁PDF）：https://www.anthropic.com/claude-opus-4-7-system-card

我還把整份System Card翻譯成了中文，在公眾號后臺回復 opus4.7 就能拿到。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.