PRODUCT
我把手上幾個活都換到 4.7 試了試,比 4.6 好用太多,斷檔的強
剛剛,Anthropic 發布 Claude Opus 4.7,已經在 Claude 的所有產品、API、Amazon Bedrock、Google Cloud Vertex AI、Microsoft Foundry 上全面可用。模型 id claude-opus-4-7
![]()
這是 Opus 4.6 的直接升級版。三條主線:編程能力在最難的任務上明顯提升、視覺分辨率擴大到過去的三倍多、同時是 Project Glasswing 之后第一個試驗新網絡安全護欄的對外模型
定價完全不變,$5/M 輸入 token,$25/M 輸出 token。相比之下 Mythos Preview 的 API 價格是 $25/$125 per million,Opus 4.7 便宜 5 倍
Anthropic 官方給出的總體對比圖,Opus 4.7 在多個基準上高于 Opus 4.6,但仍然弱于內部的 Mythos Preview
![]()
Opus 4.7 / Opus 4.6 / GPT-5.4 / Gemini 3.1 Pro / Mythos Preview 橫向對比
編程是主升級點
Opus 4.7 最顯眼的變化在高難度軟件工程任務上。用戶反饋里反復出現兩個詞:長程、自主
過去必須盯著改的那類代碼活,現在可以放手讓它跑
28 家早期客戶給了反饋,這里挑最硬核的幾個數據點
→GitHub:93 個任務的編程基準上,比 Opus 4.6 高 13%,4 個任務是 Opus 4.6 和 Sonnet 4.6 都搞不定的
→Cursor:CursorBench 過 70%,Opus 4.6 是 58%
→Rakuten:Rakuten-SWE-Bench 上解決的生產任務是 Opus 4.6 的 3 倍
→Hex:低 effort 檔的 Opus 4.7 大致等于中 effort 檔的 Opus 4.6
→Notion:準確率提升 14%,token 用得更少,工具調用錯誤減少到 三分之一。第一個通過 Notion 「隱含需求」測試的模型
→Cognition(Devin 的公司):能連貫工作幾個小時,不會卡在難題上放棄
Replit、Vercel、Databricks、Warp、Factory、Ramp、CodeRabbit、Qodo、Bolt 等一系列廠商都給出了正面反饋。公告里一個反復出現的觀察是:Opus 4.7 減少了無意義的包裝函數和兜底腳手架,寫的時候自己發現問題自己改
XBOW 的視覺敏銳度基準:Opus 4.6 是 54.5%,Opus 4.7 是 98.5%
XBOW 做自動化滲透測試,這是這次發布里最硬的一個數據跳變
Imbue 的案例最極端:Opus 4.7 自主從零構建了一個完整的 Rust TTS 引擎,包括神經網絡模型、SIMD 內核、瀏覽器 demo,然后用語音識別器反過來驗證自己的輸出是否匹配 Python 參考實現。代碼庫公開
官方給出的編程基準圖
![]()
編程基準橫掃
視覺能力是第二大升級
Opus 4.7 能接受的圖片長邊從之前的水平上升到 2,576 像素(約 3.75 兆像素),是此前 Claude 模型的三倍多
這個能力是模型層的變化,沒有 API 參數開關。直接送圖過去就行,需要更高分辨率就不要自己壓縮
順便把 Anthropic 的 Vision 文檔看一下,背景信息在這里:用 base64 或 URL 喂圖,單次請求最多可以傳 600 張(API)或 20 張(claude.ai)。上傳太大(單邊超過 1568 像素或超過約 1600 token 的圖)會先被服務端 down-sample。計價按 tokens ≈ (width × height) / 750 估算,1 兆像素大約 1334 tokens
能用得上的場景:computer-use agent 讀密集截圖、復雜圖表里的數據抽取、需要像素級對照的工作。XBOW 的數據說明這個升級對 computer-use 是實質的
![]()
視覺理解、OCR、計算機使用、圖表閱讀多項基準
安全策略:Mythos 還沒放,先用 Opus 4.7 練手
這次的安全設計要配合 Project Glasswing 一起看
上周 Anthropic 聯合 AWS、蘋果、博通、思科、CrowdStrike、Google、摩根大通、Linux 基金會、微軟、NVIDIA、Palo Alto Networks 成立了 Project Glasswing。起因是 Anthropic 訓出了 Claude Mythos Preview 這個沒發布的前沿模型,在挖漏洞方面達到了超過大多數安全專家的水平
Mythos Preview 過去幾周已經在每一個主流操作系統和主流瀏覽器里都找出了 0-day 漏洞。有三個公開案例:
→ OpenBSD 上存活了 27 年 的漏洞,攻擊者可以只靠連接就遠程崩掉任何一臺機器
→ FFmpeg 里的 16 年老洞,自動化測試工具跑過同一行代碼五百萬次都沒發現
→ Linux 內核里自主鏈起了幾個漏洞,把普通用戶權限升到完全控制
Anthropic 的結論是,前沿 AI 在代碼漏洞發現和利用上已經進入可以比肩頂級安全專家的階段。如果護欄跟不上,這種能力一旦擴散會非常危險
Opus 4.7 就是為這個問題準備的第一個對外模型。訓練過程中差異性地降低了網絡安全能力,發布時帶上了自動檢測和攔截高風險網絡安全用途請求的護欄。做合法用途的安全研究員(漏洞研究、滲透測試、紅隊)可以申請加入 Cyber Verification Program
Mythos Preview 不會廣泛發布,Anthropic 給 Glasswing 參與方承諾了最高一億美元的使用額度。它的 API 價格是 $25/$125 每百萬 token,是 Opus 4.7 的 5 倍
Opus 4.7 在網絡安全能力上弱于 Mythos Preview(訓練時就是這么設計的)。這些現實部署數據里學到的護欄經驗,會用來為后面更大范圍放 Mythos 級模型做準備
對齊評估的總體結論:Opus 4.7 比 Opus 4.6 和 Sonnet 4.6 好一些,但 Mythos Preview 仍然是 Anthropic 訓出來的對齊最好的模型
官方原話是 largely well-aligned and trustworthy, though not fully ideal in its behavior
![]()
對齊評估總分,越低越好
誠實度、抗 prompt injection 上 Opus 4.7 有改進。受控物質減害建議過于詳細這類問題上有小幅倒退。完整評估在 Claude Opus 4.7 System Card 里
同步發布的東西
除了模型本身,這次還有幾項更新
新的 effort 檔位 xhigh。原來的檔位是 low / medium / high / max,這次在 high 和 max 中間插了一個 xhigh
![]()
effort 檔位示意,xhigh 是這次新增
這個參數控制的是 Claude 響應的 token 花費規模,覆蓋文字回答、工具調用、extended thinking 全部。Claude Code 里默認 effort 已經拉到 xhigh。官方建議編程和 agentic 場景用 high 或 xhigh 起步
task budgets 公測。API 端新功能,讓開發者能給 Claude 設置 token 預算,讓它在長任務里自己分配優先級。和 effort 參數一起用更細
/ultrareview slash 命令。Claude Code 里新增,專門跑一個獨立的 review 會話,把改動從頭到尾過一遍,找 bug 和設計問題。Pro 和 Max 用戶有 3 次免費額度
Auto mode 下放到 Max 用戶。3 月 24 日 Anthropic 先在 Team 計劃上發布了這個模式。機制是在 --dangerously-skip-permissions 和默認每步都問的兩極之間加了一個中間檔:每次工具調用前有個分類器檢查是否有危險操作(批量刪文件、敏感數據外泄、惡意代碼執行),安全的直接放行,危險的攔下來讓 Claude 換方案。這次 Max 用戶也能用
遷移:兩個變化影響 token 消耗
從 Opus 4.6 升 Opus 4.7 是直接替換,但有兩個點值得提前規劃
第一:tokenizer 換了,文本處理方式更好了。代價是同樣的輸入文本,新 tokenizer 下的 token 數大約是舊版的 1.0–1.35 倍,取決于內容類型
第二:高 effort 檔位下 Opus 4.7 想得更多,尤其是 agentic 場景里靠后的輪次。這帶來更高的硬題可靠性,但也意味著更多的輸出 token
控制 token 使用的方法:調 effort、調 task budgets、提示模型更簡潔。Anthropic 自己的內部編程評估上,整體是 token 效率改善的,不同 effort 檔位都更優,但他們建議用戶在真實流量上自己量
![]()
內部編程評估里,不同 effort 檔位都更優
還有一個容易踩的坑:指令跟隨強度大幅提升
意思是,為老模型寫的 prompt 有可能在 Opus 4.7 上產生意料之外的結果。過去 Claude 會寬松解讀或者跳過的指令,Opus 4.7 會嚴格按字面執行。升級的時候,prompt 和 harness 要重新調
Anthropic 的遷移指南里還有一條老賬:用 Claude 4.6 或以上模型,thinking: {type: "enabled", budget_tokens: N} 已經 deprecated,推薦遷到 thinking: {type: "adaptive"} 加 effort 參數。老的 beta header(effort-2025-11-24、fine-grained-tool-streaming-2025-05-14、interleaved-thinking-2025-05-14)也該刪掉了,這些功能都已經正式上線
真實工作
除了跑分,Anthropic 內部測試里 Opus 4.7 在金融分析師任務上比 Opus 4.6 更有效:更嚴謹的分析和建模、更專業的演示、任務之間的銜接更緊
在第三方評估 GDPval-AA 上,Opus 4.7 拿到 state-of-the-art。這個評估是 Artificial Analysis 基于 OpenAI 的 GDPval 數據集做的,覆蓋 44 個職業、9 大行業的 220 個真實經濟價值任務。模型需要產出文檔、幻燈片、圖表、電子表格等實際工作交付物
在 Opus 4.7 之前的榜單上,前三是 GPT-5.4 xhigh(ELO 1677)、Claude Sonnet 4.6 Max(1654)、Claude Opus 4.6 Max(1620)
記憶方面,Opus 4.7 更會用基于文件系統的記憶。跨多輪、多 session 的長任務里記得住重要筆記,開新任務時需要的前置上下文更少
其他 benchmark
官方博客里還給出了辦公、文檔推理、長上下文、生物、長程一致性等基準的詳細數據
辦公任務
![]()
文檔推理
![]()
長上下文推理
![]()
生物
![]()
長程一致性
![]()
Anthropic 還特別標注了 benchmark 上的幾個細節。Terminal-Bench 2.0 用的是 Terminus-2 harness 關閉 thinking 模式。CyberGym 上 Opus 4.6 的分數從原報的 66.6 更新到 73.8。SWE-bench Verified / Pro / Multilingual 上做了記憶化篩查,排除可能被模型記住的問題后,Opus 4.7 對 Opus 4.6 的領先仍然成立
和競品對比的時候,用的是 API 可用的最好版本,GPT-5.4 和 Gemini 3.1 Pro 都是這個口徑
入口
模型字符串:claude-opus-4-7
Claude 所有產品已經切到 Opus 4.7。API、Amazon Bedrock、Google Cloud Vertex AI、Microsoft Foundry 同步可用
Claude Code 用戶默認 effort 拉到 xhigh,Pro/Max 有 3 次免費 /ultrareview,Max 用戶開啟 auto mode
參考材料
微信打不開外鏈,長按復制 URL 到瀏覽器打開
Opus 4.7 發布公告
https://www.anthropic.com/news/claude-opus-4-7
Claude Opus 4.7 System Card
https://anthropic.com/claude-opus-4-7-system-card
Claude API 模型總覽
https://platform.claude.com/docs/en/about-claude/models/overview
從 Opus 4.6 遷移到 Opus 4.7 的官方指南
https://platform.claude.com/docs/en/about-claude/models/migration-guide#migrating-to-claude-opus-4-7
Effort 參數文檔
https://platform.claude.com/docs/en/build-with-claude/effort
高分辨率 Vision 能力文檔
https://platform.claude.com/docs/en/build-with-claude/vision
Claude Code slash 命令文檔(含 /ultrareview)
https://code.claude.com/docs/en/commands
Auto mode 發布說明
https://claude.com/blog/auto-mode
Project Glasswing 發布公告
https://www.anthropic.com/glasswing
Cyber Verification Program 申請入口
https://claude.com/form/cyber-use-case
GDPval-AA 榜單
https://artificialanalysis.ai/evaluations/gdpval-aa
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.