網易首頁 > 網易號 > 正文 申請入駐

Claude Opus 4.7炸場,6美元造《我的世界》,臨門AGI前強調安全,打工人卻更慌了

0
分享至



Anthropic 今天正式發布 Claude Opus 4.7,官方說這是“目前最強 Opus 模型”。定價沒變,還是每百萬 token 輸入 5 美元、輸出 25 美元,但能力這次真的往上跳了一個臺階。

兩個月前剛出頂模 4.6,今天 4.7 直接來了。Anthropic 這個更新節奏,真的不打算讓人喘氣。

在 Vals Index 綜合評測中,Opus 4.7 以 71.4% 的得分拿下第一,比之前的最好成績(67.7%)大幅躍升。它還在 Vibe Code Bench、Vals Multimodal、Finance Agent、Mortgage Tax、SAGE、SWE-Bench 和 Terminal Bench 2 等多個榜單中均位列第一。


從 4.6 到 4.7,最核心的變化是什么?一句話說清楚:它開始對自己的輸出負責了。

以前你把任務扔給 Claude,它做完就交,對不對另說。4.7 不一樣,它會在報告結果之前先自己驗證一遍。聽起來是個小事,但對于那些跑幾個小時的復雜任務來說,這個改變意味著你可以真正放手,不用一直盯著它。Anthropic 原話是:“You can hand off your hardest work with less supervision.”——把最難的活交出去,不用再當保姆了。

寫代碼能力大漲,這是最大的升級

4.7 整體更強,尤其在“寫代碼”和“看圖表”這兩塊進步明顯。

處理真實工程項目的能力,提升幅度相當大。

在 SWE-bench Pro(真實 GitHub 項目 bug 修復)上,4.7 從 53.4% 跳到 64.3%,提升了差不多 11 個百分點。這個幅度相當大。處理標準編程任務(SWE-bench Verified)也從 80.8% 提升到 87.6%。

SWE-bench Pro 那個 11 個百分點的躍升,背后的含義其實挺重要的。這個測試用的都是 GitHub 上真實的開源項目,代碼庫大、依賴關系復雜、bug 藏得深——跟那些教科書式的干凈代碼完全是兩回事。能在這種“臟活累活”上提升這么多,說明 4.7 在實戰場景下確實更能打了。


指令執行能力也徹底想通了。

4.6 有個讓人又愛又恨的毛病——它會“善意理解”你的指令。你說做 A,它覺得 B 更好,就悄悄給你做了 B,還自我感覺良好。這種“聰明反被聰明誤”的問題,在復雜工作流里會直接釀成大錯。

4.7 把這個邏輯翻轉了:逐字執行,不自作主張。

但這把雙刃劍也有代價。Anthropic 自己在發布文檔里警告:針對 4.6 調好的提示詞,在 4.7 上可能直接崩掉。以前那些“模糊指令靠模型腦補”的用法,現在得老老實實重寫 prompt 了。


看圖表、看圖片理解能力大漲

4.7 支持解析長邊最大 2576 像素的圖像,大約 3.75MP,是之前所有 Claude 版本的三倍多。

視覺推理能力從 69.1% 跳到 82.1%(不用工具的情況下)。跳了 13 個百分點。拿一張報表、一張架構圖丟給它,它能看懂的概率明顯更高了。

這個數字背后的意義,對普通用戶來說很直接:密密麻麻的截圖能讀了,復雜圖表能提取了,高分辨率設計稿能分析了。做 PPT、做界面、做文檔,4.7 的審美和精度都跟著上來了。

代碼審查工具 CodeRabbit 的測試數據顯示,切換到 4.7 之后,最難發現的 bug 召回率提升了 10% 以上,而誤報率沒有上升。

對打工人來說,最直接的感受可能是:以前截圖發給 Claude,它說“圖片不夠清晰看不清”——這個問題,基本上消失了。

電腦操作能力也提升了。

操作電腦能力(OSWorld)從 72.7% 提升到 78.0%。就是那種“幫我打開瀏覽器、點一下、填個表”的 Agent 類任務,做得更穩了。

研究生級別的硬核推理能力,GPQA 從 91.3% 提升到 94.2%,已經接近天花板了。

小幅進步的地方

除了上面那些大升級,4.7 在一些細節上也有改進:

  • 終端里寫代碼:65.4% → 69.4%

  • 復雜學科推理(人類最后的考試):40% → 46.9%

  • 金融分析:60.1% → 64.4%

  • 多語言問答:91.1% → 91.5%(幾乎沒動)

  • 工具調用:75.8% → 77.3%

退步了的地方

網頁搜索能力反而下降。

BrowseComp 從 83.7% 掉到 79.3%,掉了 4 個百分點。如果你的業務里大量依賴 Claude 去網上搜資料、做 research,這個版本可能不如 4.6。

寫代碼、跑 Agent、處理圖片圖表這些場景,4.7 的提升是實打實的,閉眼升就行。但如果你的工作嚴重依賴 Claude 去網上大量檢索信息、做深度研究,那 4.6 可能還是更穩妥的選擇,至少先觀望一下實際表現再決定。

網絡安全漏洞復現能力也下降了——從 73.8% 降到 73.1%,基本沒變,略微退步。

這個退步不是偶然的,而是 Anthropic 主動為之。

6美元造《我的世界》和GTA-5

國外很多網友已經開始用上4.7,有人用6美元的API調用成本,從零“造出一個我的世界”!

開發者Angaisb通過自然語言描述,讓AI模型一步步生成完整的Minecraft風格沙盒游戲,包括方塊世界、挖掘建造、資源采集等核心機制。整個過程AI自動迭代調試,最終輸出可直接運行的完整游戲。

而在開發者Bridgemind的直播中,他用“Vibe Coding”模式,僅通過描述就讓AI一氣呵成,在單個HTML文件中構建出一個包含多種武器的第一人稱射擊游戲(FPS)。


游戲支持敵人波次、不同武器切換和流暢的3D射擊手感,直播時吸引了1500多人在線圍觀。開發者甚至放話,下一步目標直指GTA 6!這充分展現了4.7實時生成復雜互動應用的能力,從想法到可玩游戲,只需“隨性編碼”幾句提示。

Claude Code 這次也跟著動了

跟 4.7 同步上線的,還有幾個 Claude Code 的新功能,值得單獨說一下。

新增了/ultrareview命令,專門用來做代碼審查——不是普通的 review,是專門盯著錯誤和設計問題的那種深度審查。Pro 和 Max 用戶每月免費三次。

Claude Code 的默認推理強度從 high 升級到了 xhigh,這是一個介于 high 和 max 之間的新檔位,理解成“思考更深但不燒最多錢”就行。

與此同時,任務預算(task budgets)進入公測,開發者可以在長任務中精確控制 token 消耗,不用再擔心一個任務跑完賬單爆炸。

自動模式也擴展到了 Claude Code Max 用戶——Claude 可以在任務執行中自主做決策,比完全放開權限的“yolo 模式”更可控,比每步都問你確認的模式更省心。

Reddit 上有個 Claude Code(Opus 4.6)vs. Codex(GPT-5.4)的對比很有意思,經歷 8 萬行 Python/TypeScript 代碼,2800 個測試用例的數據分析應用深度對比。結論是:“Claude 需要一位技術精湛、專注投入的‘駕駛員’,而 Codex 對使用者的實時介入要求更低。”


來源:@shao__meng

還有一件更離譜的事

就在 4.7 發布的今天,X 上另一條消息也傳開了:有人給 Claude Code 加了一個文言文提示詞模式(wenyan mode),用古典漢語來寫 prompt,直接把提示詞大小壓縮了 60%。


@amaanbuilds 發推感嘆:“Using a 2000 yr old language as a compression layer for tokens is just insane lol”——用 2000 年前的語言做 token 壓縮層,這操作真的離譜。

但你仔細想想,文言文本來就是極度壓縮的信息載體,“有朋自遠方來”六個字,白話文要寫一段。古人用它省竹簡,現代人用它省 token,邏輯上一脈相承,只是這個用法確實沒人想到過。

安全防護加強了,但打工人更慌了

4.7 的發布,還有一個容易被忽略但非常重要的背景:Anthropic 在臨門 AGI 前,開始主動給模型“降能力”了。

上周 Anthropic 剛剛公布了 Project Glasswing 項目,專門研究 AI 模型在網絡安全領域的風險和收益。他們明確表示,會限制 Claude Mythos Preview 的發布范圍,并在能力較弱的模型上先測試新的網絡安全防護機制。

4.7 就是第一個“試驗品”。

Anthropic 在訓練 4.7 的時候,主動實驗了差異化降低網絡安全能力的方法。所以你會看到,4.7 在網絡安全漏洞復現能力上從 73.8% 降到 73.1%——這不是訓練失誤,而是有意為之。


與此同時,4.7 內置了自動檢測和攔截機制,能識別并阻止那些涉及禁止用途或高風險網絡安全操作的請求。

Anthropic 還專門推出了“網絡安全驗證計劃”(Cyber Verification Program),允許安全專業人士申請使用 4.7 進行合法的漏洞研究、滲透測試和紅隊演練。

這個邏輯很清楚:模型越來越強,但不能無限制地強下去。在接近 AGI 的路上,安全防護必須跟上。

但對普通打工人來說,這個消息有點慌。

你想想,連 Anthropic 都開始主動給自己的模型“削弱能力”了,Mythos的編程和圖表的能力并沒有完全釋放,長文本比4.6還有退步,這說明什么?說明他們內部已經看到了某些能力邊界,看到了失控的可能性。

更直接的影響是:Anthropic 同步宣布開始推行身份驗證,合作方是 Persona,需要護照加自拍。

這個消息在中文區引發了不少討論,畢竟能用上 Claude 的路本來就不寬,現在又多了一道門。

Anthropic 現在的狀態,有點嚇人

發布 4.7 的背景,是 Anthropic 正在經歷一段幾乎所有人都沒預料到的增速。

過去一年,Claude 的流量增長了大約 5 倍。今年 2 月,Anthropic 完成了 300 億美元融資,估值 3800 億美元。

企業端的數據更夸張——根據企業支出追蹤平臺 Ramp 的數據,今年 1 月和 2 月,Ramp 上付費使用 Anthropic 服務的企業占比連續兩個月大幅增長,而 OpenAI 的份額同期下滑。


“現在每四家 Ramp 上的企業就有一家在付費用 Anthropic,一年前這個比例是二十五分之一。”Ramp 經濟學家 Ara Kharazian 這樣說。

企業年消費超過 10 萬美元的客戶數量,一年內增長了 7 倍。Claude Code 的年化營收,在今年 2 月已經跑到了 25 億美元。到本月,Anthropic 整體年化營收據報道已經超過 300 億美元,首次超過了 OpenAI。

這個背景下,4.7 的發布不只是一次常規迭代。它是 Anthropic 在企業市場全面提速的縮影——每一個“更精準執行指令”、“更穩定跑長任務”的改進,都直接對應著企業客戶最真實的痛點。

最后說一句

還有一個更強的模型 Claude Mythos Preview 還在路上,目前只對少數安全和企業合作伙伴開放。

4.7 某種程度上是在給 Mythos 鋪路——新的網絡安全防護機制,先在 4.7 上跑通,再推到 Mythos 的大規模發布。

所以,現在的 4.7,只是個開始。

但這個開始,已經讓人既興奮又有點不安了。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
難怪美國一點不慌,原來真有內鬼輸血!1200噸戰略物資被悄悄賤賣

難怪美國一點不慌,原來真有內鬼輸血!1200噸戰略物資被悄悄賤賣

起喜電影
2026-04-26 03:31:05
1995年,在北京蝸居13年的吳德病逝,留下三行遺囑令人落淚

1995年,在北京蝸居13年的吳德病逝,留下三行遺囑令人落淚

蔣南強讀歷史
2026-04-26 09:30:06
性能力與壽命關系被發現!男性40歲后,睪酮越高,死亡風險越低

性能力與壽命關系被發現!男性40歲后,睪酮越高,死亡風險越低

藥師說健康
2025-12-05 09:47:10
17中13轟43分!歷史首人!6換2大交易撿到寶了

17中13轟43分!歷史首人!6換2大交易撿到寶了

世界體育圈
2026-04-26 12:44:24
王思雨頒獎笑成花兒!獲金球獎勵成關鍵之王 大方展示金牌超颯

王思雨頒獎笑成花兒!獲金球獎勵成關鍵之王 大方展示金牌超颯

顏小白的籃球夢
2026-04-26 07:31:42
畸形母愛毀星二代:母乳12年同床15年荒唐事

畸形母愛毀星二代:母乳12年同床15年荒唐事

看盡落塵花q
2026-04-25 14:10:18
悲喜兩重天!蓉城4-0沖冠,津門虎4-2破咒,中超一夜改寫歷史

悲喜兩重天!蓉城4-0沖冠,津門虎4-2破咒,中超一夜改寫歷史

寶哥精彩賽事
2026-04-26 13:32:38
沒有不透風的墻!沈騰和林允的瓜未必是假的、站姐關站跑路

沒有不透風的墻!沈騰和林允的瓜未必是假的、站姐關站跑路

琴聲飛揚
2026-01-20 14:25:10
馬寧搶鏡亞冠決賽!指示主裁罰下沙特球員 霸氣伸指+喝退對方質疑

馬寧搶鏡亞冠決賽!指示主裁罰下沙特球員 霸氣伸指+喝退對方質疑

我愛英超
2026-04-26 06:11:19
外國人擠爆北京車展,全球汽車進入中國時間

外國人擠爆北京車展,全球汽車進入中國時間

汽車公社
2026-04-26 08:35:08
伊朗副議長:穆杰塔巴下令霍爾木茲海峽不得恢復戰前狀態

伊朗副議長:穆杰塔巴下令霍爾木茲海峽不得恢復戰前狀態

財聯社
2026-04-26 07:40:26
往事悠悠:七十年代隨父母下放到農村,那段經歷我記憶深刻

往事悠悠:七十年代隨父母下放到農村,那段經歷我記憶深刻

草根情感故事茶社
2026-04-25 13:22:28
穆杰塔巴敦促“伊朗南邊鄰國”認清形勢

穆杰塔巴敦促“伊朗南邊鄰國”認清形勢

環球網資訊
2026-04-26 06:43:08
胡金秋:我想在CBA賽場打到父子同臺

胡金秋:我想在CBA賽場打到父子同臺

新浪財經
2026-04-26 13:49:37
這就是赤裸裸的現實!公交集團的退休工資,估計是普通人天花板了

這就是赤裸裸的現實!公交集團的退休工資,估計是普通人天花板了

朗威談星座
2026-04-26 09:49:40
最新:烏克蘭收復扎波羅熱要塞并構建立足點!再推進15公里

最新:烏克蘭收復扎波羅熱要塞并構建立足點!再推進15公里

項鵬飛
2026-04-25 22:56:08
醪糟再次被關注!醫生發現:高血脂患者喝醪糟,不用多久4大變化

醪糟再次被關注!醫生發現:高血脂患者喝醪糟,不用多久4大變化

芹姐說生活
2026-04-19 15:52:53
得寸進尺?切爾西允許埃斯特旺不做手術 后者堅持回巴西做康復

得寸進尺?切爾西允許埃斯特旺不做手術 后者堅持回巴西做康復

雪狼侃體育
2026-04-26 14:01:25
一天4大瓜炸穿內娛!陳曉狠撕陳妍希,出軌插足塌房全齊活

一天4大瓜炸穿內娛!陳曉狠撕陳妍希,出軌插足塌房全齊活

阿廢冷眼觀察所
2026-04-26 02:39:23
41歲著名演員突然離世,拋下年僅11歲兒子,親友:生前無異樣

41歲著名演員突然離世,拋下年僅11歲兒子,親友:生前無異樣

LULU生活家
2026-04-25 14:50:49
2026-04-26 15:15:01
鯨選AI incentive-icons
鯨選AI
最新AI產品化與商業化案例速遞
152文章數 38關注度
往期回顧 全部

游戲要聞

實測分析第二神賜是否是陷阱!想象很美好但現實很殘酷?

頭條要聞

特朗普2年內遭遇4次刺殺威脅 第一個任期也曾險遭襲擊

頭條要聞

特朗普2年內遭遇4次刺殺威脅 第一個任期也曾險遭襲擊

體育要聞

那一刻開始,兩支球隊的命運悄然改變了

娛樂要聞

《八千里路云和月》大結局意難平

財經要聞

DeepSeek V4背后,梁文鋒的轉身

科技要聞

漲價浪潮下,DeepSeek推動AI“價格戰”

汽車要聞

預售19.38萬元起 哈弗猛龍PLUS七座版亮相

態度原創

親子
房產
本地
數碼
公開課

親子要聞

孩子會旺媽媽的6個特點

房產要聞

新一輪教育大爆發來了!海口,開始瘋狂建學校!

本地新聞

云游中國|逛世界風箏都 留學生探秘中國傳統文化

數碼要聞

小米截至2025年底全球授權專利超4.5萬項 智能座艙專利中國第一

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版