網易首頁 > 網易號 > 正文申請入駐

Claude Opus 4.7深夜上線，評分碾壓

2026-04-17 10:08:00　來源: 機器之心Pro

北京舉報

分享至

機器之心編輯部

想不到，風口浪尖上的 Claude 又大更新了。

周四晚間，Anthropic 宣布旗下最新款基礎模型 Claude Opus 4.7 全面上市。

Opus 4.7 在高級軟件工程方面相比 Opus 4.6 有了顯著提升，尤其是在處理最復雜的任務方面。用戶反饋表示，他們現在可以放心地將以前需要密切監督的最棘手的編碼工作交給 Opus 4.7 處理。Opus 4.7 能夠嚴謹且一致地處理復雜、耗時的任務，精準地執行指令，并在返回結果之前設計出驗證自身輸出的方法。

該模型還擁有明顯更佳的視覺效果：它能夠識別更高分辨率的圖像，完成專業任務時，更具品味和創造力，能夠制作出更高質量的界面、幻燈片和文檔。而且，盡管它的功能不如剛公布的最強模型 Claude Mythos Preview 全面，但在多項基準測試中，它的表現都優于 Opus 4.6：

可見 SWE-bench Pro 的分數達到了 64.3%，遠高于 GPT-5.4 的 57.7%。

Opus 4.7 已在所有 Claude 產品和 API、Amazon Bedrock、Google Cloud 的 Vertex AI 以及 Microsoft Foundry 平臺上推出。定價與 Opus 4.6 相同：每百萬個輸入 token 5 美元，每百萬個輸出 token 25 美元。開發者可通過 Claude API 使用。

根據目前大家的使用反饋，新模型更加嚴謹，復雜任務的一致性也更強了，在最困難的編程任務上進步明顯。當然這也不是沒有代價的：

以下是 Opus 4.7 早期測試的一些亮點：

指令執行能力，Opus 4.7 的表現有了顯著提升。有趣的是，這意味著之前版本編寫的提示信息現在有時可能會產生意想不到的結果：之前的版本對指令的解釋較為寬泛，甚至完全跳過某些部分，而 Opus 4.7 則會嚴格按照指令執行。用戶應據此調整提示信息和相關設置。
改進的多模態支持。Opus 4.7 對高分辨率圖像的處理能力更強：它可以處理長邊高達 2576 像素（約 375 萬像素）的圖像，是之前 Claude 型號的三倍以上。這為依賴精細視覺細節的多模態應用開辟了廣闊的空間：智能體可以讀取密集屏幕截圖、從復雜圖表中提取數據以及需要像素級精確參考的工作。
實際應用能力提升。除了在財務代理評估中獲得領先水平（見上表）外，Anthropic 的內部測試表明，Opus 4.7 比 Opus 4.6 更高效地進行財務分析，能夠生成嚴謹的分析和模型，呈現更專業的演示文稿，并在各項任務之間實現更緊密的整合。Opus 4.7 在 GDPval-AA 評估中也處于領先水平。
內存占用方面，Opus 4.7 更擅長利用文件系統內存。它能記住長時間、多會話工作中的重要筆記，并利用這些筆記繼續執行新的任務，因此這些新任務對預先獲取的上下文信息要求更低。

Claude Code 負責人 Boris Cherny 介紹了 Claude Opus 4.7 的一些最新特性。

1、自動模式

Opus 4.7 喜歡執行復雜、長時間運行的任務，比如深度研究、重構代碼、構建復雜功能、迭代直到達到性能基準。過去，你要么得在模型執行這類長時間任務時全程監督，要么使用 --dangerously-skip-permissions。

自動模式作為一種更安全的替代方案，在這種模式下，權限提示會被路由到一個基于模型的分類器，來決定命令是否安全執行。如果安全，它就會自動批準。

這意味著模型運行時不再需要全程監督。更重要的是，這意味著你可以并行運行更多 Claude。一旦一個 Claude 開始運行，你就可以將注意力轉向下一個 Claude。

2、新的 /fewer-permission-prompts 技能

它會掃描你的會話歷史記錄，找出常見的 bash 和 MCP 命令，這些命令是安全的，也導致了重復的權限提示。然后，它會推薦一個命令列表，將其添加到你的權限白名單中。

你可以使用此功能來優化你的權限設置，避免不必要的權限提示。

3、「回顧」

回顧是對智能體所做的事情及下一步行動的簡短總結，它可以在幾分鐘或幾小時后返回一個長時間運行的會話。

4、專注模式

CLI 中加入了專注模式，它會隱藏所有中間步驟，只專注于最終結果。新模型已經達到了這樣一個程度，我們通常信任它會運行正確的命令并進行正確的編輯，只需要查看最終結果。

你可以使用 /focus 進行開關。

5、自適應的思考深度

Opus 4.7 使用自適應思考而非思考預算。要調整模型的思考多 / 少程度，Anthropic 推薦調整努力程度。

使用較低努力程度可獲得更快的響應和更低的令牌使用量。使用較高努力程度可獲得最高智能和能力。

Boris Cherny 表示，大多數任務可以使用 xhigh 努力程度，對最困難的任務使用 max 努力程度。Max 僅適用于當前的會話；其他努力程度是粘性的，并將在下一次會話中持續存在。

/effort 用于設置努力程度。

6、給 Claude 一個驗證其工作的方式

最后，確保 Claude 有一種驗證其工作的方式。這一直是一種能讓你從 Claude 獲得 2-3 倍產出的方法，而且在 4.7 版本中，這比以往任何時候都更重要。

驗證方式因任務而異。對于后端工作，確保 Claude 知道如何啟動您的服務器 / 服務來進行端到端測試；對于前端工作，使用 Claude Chromium 擴展程序，讓 Claude 能夠控制您的瀏覽器；對于桌面應用，使用 computer use。

Boris Cherny 稱自己最近的許多提示都像這樣：「Claude 做 blah blah /go」。/go 是一種技能，它讓 Claude 1）使用 bash、瀏覽器或 computer use 進行端到端自我測試；2）運行 /simplify 技能；3）提交一個 PR。

上周 Anthropic 發布了「Project Glasswing」項目，重點闡述了人工智能模型在網絡安全領域的風險與優勢。Anthropic 宣布將限制 Claude Mythos Preview 的發布范圍，并首先在功能較弱的模型上測試新的網絡安全防護措施。

Opus 4.7 即是首個此類模型：其網絡安全能力不如 Mythos Preview（Anthropic 表示在訓練過程中嘗試了多種方法來逐步降低其網絡安全能力）。發布時的 Opus 4.7 配備了安全防護措施，能夠自動檢測并阻止表明存在違禁或高風險網絡安全用途的請求。

Anthropic 將從這些安全防護措施的實際部署中獲得經驗，從而最終實現 Mythos 級模型的廣泛發布目標。

總體而言，Opus 4.7 的安全性能與 Opus 4.6 相似：Anthropic 的評估顯示，其出現欺騙、奉承和與濫用者合作等令人擔憂的行為的比例較低。在某些指標上，例如誠實度和抵御惡意「快速注入」攻擊的能力，Opus 4.7 比 Opus 4.6 有所改進；但在其他指標，例如在管制藥物方面提供過于詳細的減害建議的傾向上 Opus 4.7 略有不足。

Anthropic 的一致性評估得出結論，該模型「總體上一致性良好且值得信賴，但其行為并非完全理想」。值得注意的是，根據評估，Mythos Preview 仍然是一致性最佳的模型。

根據自動化行為審核，總體行為偏差得分如上。

除了 Claude Opus 4.7 本身之外，Anthropic 還將推出以下更新：

更精細的難度控制：Opus 4.7 新增了一個介于 high 和 max 之間的 xhigh「超高」級別，使用戶能夠更精確地控制在解決難題時推理速度和延遲之間的權衡。在 Claude Code 中，Anthropic 已將所有套餐的默認級別提升至 xhigh。在測試 Opus 4.7 的編碼和智能體應用場景時，建議從 high 或 xhigh 級別開始。

在 Claude 平臺（API）上：除了支持更高分辨率的圖像外，Anthropic 還在公開測試版中推出了任務預算，讓開發者能夠引導 Claude 的 token 支出，以便它可以優先處理較長時間內的工作。

在 Claude Code 中：新增的 /ultrareview 斜杠命令會創建一個專門的審查會話，讀取所有更改并標記出細心的審查員能夠發現的錯誤和設計問題。Anthropic 為 Claude Code Pro 和 Max 用戶提供三次免費的超強審查機會供試用。Anthropic 還將自動模式擴展到了 Max 用戶。自動模式是一項新的權限選項，Claude 會替你做出決策，這意味著可以運行更長時間的任務，減少中斷，并且比人類選擇跳過所有權限的風險更低。

Opus 4.7 是 Opus 4.6 的直接升級版，但有兩個變化值得關注，因為它們會影響 token 的使用。首先，Opus 4.7 使用了更新的分詞器，改進了模型處理文本的方式。因此外界認為它大概率是一個新的基礎模型，甚至可能是從 Mythos 提煉而來的。

但代價是，相同的輸入可能會映射到更多的詞元 —— 根據內容類型的不同，大約增加 1.0 到 1.35 倍。其次，Opus 4.7 在高難度任務下會進行更多思考，尤其是在主動語態場景的后期回合。這提高了模型在解決難題時的可靠性，但也意味著它會產生更多的輸出 token。

人們也發現，Opus 4.7 的知識截止日期更新了：

用戶可以通過多種方式控制 token 的使用：例如使用工作量參數、調整任務預算或引導模型簡化代碼。在 Anthropic 自己的測試中，最終效果是積極的 —— 內部編碼評估顯示，所有工作量級別的令牌使用率均有所提高（如下所示）—— 但 Anthropic 建議在實際流量上進行評估。

Anthropic 還編寫了遷移指南（https://platform.claude.com/docs/en/about-claude/models/migration-guide#migrating-to-claude-opus-4-7），提供了從 Opus 4.6 升級到 Opus 4.7 的更多建議。

根據每個工作量級別下 token 使用情況，對內部智能編碼評估進行評分。在此評估中，模型在單個用戶提示下自主運行，因此結果可能無法代表交互式編碼中的 token 使用情況。

在 Opus 4.7 發布后，人們開始大規模測試評價，大多數使用者認為新模型效果不錯，也有人表示其 token 消耗非常驚人（pro 問兩三個問題就沒額度了）。

同樣是在昨天晚上，千問開源了 Qwen3.6-35B-A3B（350 億參數，激活 30 億），有人還表示，在自己 MacBook Pro M5 上通過 LM Studio（以及 llm-lmstudio 插件）運行的千問模型生成「鵜鶘騎自行車」效果要比 Opus 4.7 好。

當然這不能就說明 Qwen3.6-35B-A3B 更強了。

更多的使用情況，還有待大家的進一步驗證。

參考內容：

https://www.anthropic.com/news/claude-opus-4-7

https://x.com/bcherny/status/2044847848035156457

https://qwen.ai/blog?id=qwen3.6-35b-a3b

https://simonwillison.net/2026/Apr/16/qwen-beats-opus/

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.