網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

Claude、GPT、Gemini 全滅，SWE-Bench作者新作把AI圈干沉默了

2026-05-07 10:30:19　來源: 機器之心Pro

河北舉報

0

分享至

編輯｜Sia

SWE-Bench 的創建者，剛剛又放出了一個地獄級新 benchmark。

結果相當震撼：

Claude Opus 4.7、GPT-5.4、GPT-5 mini、Gemini 3.1 Pro、Gemini 3 Flash——這一代幾乎所有最強的一線模型，全部 0% 完成率。

沒有一個模型，能夠真正完整重建一個軟件項目。

這意味著什么？

今天的大模型，已經很會寫代碼了，但依然不會做軟件工程。

最近，Meta FAIR 聯合斯坦福、哈佛等機構發布了一項很有意思的新 benchmark，本質上是在重新定義 AI Coding 的評估方式：

ProgramBench: Can Language Models Rebuild Programs From Scratch?

過去的大模型編程 benchmark，大多測的是局部能力：補全函數、修復 bug、實現 feature……本質上，仍然是在已有代碼結構里做局部修改。

而 ProgramBench 第一次把問題推進到了真正的軟件工程層面：如果只給 AI 一個程序的功能描述和 usage docs，它能不能像真正的工程師一樣，從零開始，重新構建一個真實、可執行的軟件系統？比如 ffmpeg、SQLite、ripgrep。

而且——不能聯網。

換句話說：模型到底有沒有工程智能？

為了測試這一點，研究團隊直接刪除了原始源碼和測試，只保留 executable 和 usage docs，模型需要自己決定語言、架構、模塊拆分、數據結構乃至整個 repo 的組織方式。

更關鍵的是，ProgramBench 不再按照源碼相似度打分。它采用的是 behavioral equivalence，行為等價。也就是說，你可以用完全不同的語言、算法、架構，甚至完全不同的工程實現。只要最終輸入輸出行為與原程序一致，就算通過。

研究團隊甚至使用了 agent-driven fuzzing，自動生成大量端到端行為測試。

這是第一次，一個 benchmark 真正開始逼近現實世界的軟件工程，而不再只是代碼做題。結果出來之后，整個 AI 圈都沉默了。

所有模型：0% 完成率。

Table 2 負責制造震撼，那么 Figure 4 負責解釋震撼背后的細節。它告訴我們，模型并不是完全不會做，而是經常能做出一部分，甚至在少數任務上接近完成；但只要要求 100% 行為等價，所有模型都會倒下。但這最后一公里，正是軟件工程和普通代碼生成最大的區別。另外，如果矮子里面拔將軍，Claude 系列（尤其是 Opus 4.7 和 4.6）表現相對最好。

即便論文專門增加了一個Almost指標——統計那些完成度超過 95% 的任務。目前表現最強的 Claude Opus 4.7，也只有 3% 的任務接近完成。

論文里，有一句特別關鍵的話：

Models favor monolithic, single-file implementations that diverge sharply from human-written code.

翻譯過來就是：模型極度傾向于生成單體化代碼。大量邏輯被塞進單文件；目錄結構極淺；模塊拆分極少；函數超長；整個 repo 看起來像一坨巨型腳本。

這和優秀人類工程師的習慣，幾乎完全相反。

后者往往講究模塊和關注點分離，會把代碼拆得很優雅——配置放config.json，工具函數放utils.py，數據庫操作放db.py，然后通過import相互調用。

這其實暴露出了一個非常核心的問題：AI 擅長的是局部代碼生成，但不擅長全局系統規劃。而真實的軟件工程，本質上恰恰是后者。

這也是為什么模型在 LeetCode、SWE-Bench、Copilot 場景里已經非常強，一旦進入真實世界的大型工程系統，就會迅速掉進深水區。

當前 AI Coding 的真正瓶頸已經不再是代碼生成能力，而是長期的軟件系統構建能力。

另一個很有意思的結果，是不同語言之間的表現差異。

研究團隊分別統計了模型在 C/C++、Go、Rust 等不同語言項目上的表現。可以明顯看到，傳統 C/C++ 項目完成度最高，而 Rust 表現最差。

不同模型在任務難度上的排序高度一致：nnn、fzf、gron 這類相對簡單的 CLI 工具，模型普遍能拿到更高通過率；但 FFmpeg、php-src、typst、ast-grep 這類復雜系統，幾乎所有模型都很難推進。這說明 ProgramBench 測到的不是某個模型偶然失手，而是復雜軟件系統本身對當前模型形成了穩定壓制。

這其實并不讓人意外。

互聯網里關于 C/C++ 的歷史代碼、工程實踐和 Stack Overflow 內容實在太多了，模型已經被這些模式浸泡了很多年。

而 Rust 的工程哲學本身就更強調模塊化、ownership、trait system 和長期可維護性，這些恰恰是當前模型最不擅長的東西。

某種意義上，Rust 測出來的，其實不是代碼能力，而是工程能力。

隨著 ProgramBench 引發熱議，圍繞這項 benchmark 的爭論也開始迅速擴散。其中最主要的質疑之一是：這不就是在考模型有沒有背過 FFmpeg 嗎？畢竟，ProgramBench 里的很多項目本身就是公開開源軟件。

對此，知名硅谷投資人 Deedy Das 專門發文回應：任何 benchmark 都可能被 overfit。

SWE-Bench 可以被記住 bug，LeetCode 可以被背題，甚至 ARC-AGI 未來也可能通過隱藏題庫來避免泄漏。單純討論是否存在記憶本身，其實并不能否定 benchmark 的價值。

他認為：如果模型真的試圖用 brute force 的方式去硬背這些程序，它往往會在別的地方明顯退化。

因為真正的大模型訓練，并不是簡單把整個 FFmpeg 塞進參數里。更何況，研究人員還可以通過比對生成代碼與原始源碼的相似度，去檢測是否存在直接 memorization。

他真正想強調的，從底層重建一個真實世界的軟件系統，本身就是一種高 utility、長時間跨度的復雜任務。如果模型真的能夠推理并完成這類任務，那么這種能力很可能會泛化到大量其他工程場景中

另一類爭議則更有意思。有人吐槽說：連人類都不可能從零重寫 FFmpeg，這 benchmark 根本不合理。

Deedy Das 回應，那又怎樣？今天很多 LLM 能做到的事情，人類平均水平也做不到。

benchmark 的目標，從來不是模擬普通人的平均能力，而是推動模型向更高層次的智能逼近。人類做不到，并不意味著 benchmark 沒價值。

比如，AlphaGo 下棋超過絕大多數人，并不影響它推動了 AI；同樣，一個遠高于普通工程師能力邊界的 benchmark，也可能是未來 Agent 系統必須攻克的問題。

當然，他也承認，ProgramBench 仍然存在不少缺陷。比如，目前它沒有測試 Claude Code、Codex 這類完整的 agent harness；只統計是否完成，沒有更細粒度地衡量進展。

同時還限制了聯網能力，以避免一些明顯作弊行為。

Deedy Das 同意，這可能導致模型為了在特定指標上得分而走偏（Hill-climbing on the wrong thing）。不過，人們也隨時可以增加一項在有網絡訪問權限下的性能測試作為對比。

還有人建議：為什么不用真正沒人解決過的新問題？對此，Deedy Das 表示，因為那會讓 benchmark 幾乎無法構建。

你很難為一個沒有標準答案的問題設計完備測試；也很難判斷任務是否真的屬于現實世界工程任務，還是研究者憑空捏造出來的 challenge。

但這些問題，其實都可以隨著 benchmark 演進繼續修正。

真正重要的是：ProgramBench 第一次把 AI Coding 的評估，從函數級拉到了系統級。它暴露出的，也是整個行業當前最大的斷層：真正的軟件開發，從來都不是寫一個函數，而是如何做出一個能被維護、被擴展、被團隊協作的工程系統。

今天的大模型，已經非常擅長生成局部代碼。但依然缺乏長期、一致、穩定地維護復雜系統的能力。

所以你會發現，最近整個行業都開始瘋狂研究另一批關鍵詞：memory、agents、repo-level reasoning、long-horizon planning、autonomous software engineering。

因為下一階段的競爭，可能已經不再是誰能一次性生成更長的代碼，而是誰能在長時間、多輪交互、復雜上下文中，持續穩定地維護一個活著的軟件系統。

論文鏈接：

https://programbench.com/static/paper.pdf

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

Claude Code之父紅杉演講震撼全場! 26年未寫1行代碼, 電腦都不開了

新智元 2026-05-06 17:15:48
62 跟貼 62
刷榜AI全掛了！Meta斯坦福地獄級測試，GPT/Claude/Gemini交出0分

新智元 2026-05-06 19:24:45
50 跟貼 50

細思極恐！Agent暗藏風險，清華團隊打出組合拳，全鏈路一網打盡

新智元 2026-05-07 08:14:26
0 跟貼 0

量化巨頭們的AI大模型“野望”

華爾街見聞官方 2026-03-13 00:24:33
0 跟貼 0
把臉借給AI短劇，我卻拿不回來了

鈦媒體APP 2026-05-06 15:32:26
1 跟貼 1

支持遠程操控和通用GUI操作3

機器之心Pro 2026-03-02 13:36:13
0 跟貼 0

Claude又來金融圈“炸場”了！甩出10大金融智能體模板

智東西 2026-05-07 10:02:18
0 跟貼 0
人形機器人交付元年，行業從卷模型轉向拼數據

DeepTech深科技 2026-05-07 10:47:56
0 跟貼 0

馬斯克懸了？曾給奧爾特曼特斯拉席位，紅顏知己證詞反幫OpenAI

智東西 2026-05-07 11:16:29
0 跟貼 0
浪潮發電，海水制冷：新一代AI算力中心在海上誕生

DeepTech深科技 2026-05-07 10:53:55
0 跟貼 0
一個工科生的6個月：11門課怎么串成一張技能地圖？

薛定諤的BUG 2026-05-06 21:39:01
0 跟貼 0
男子撿到別人手機，發現失主不停打軟件電話，自己真是有心無力！

家有臭寶 2026-05-02 17:35:16
1320 跟貼 1320
Claude Code 源碼泄露了，有人用Python復刻了一個極簡版

機器之心Pro 2026-04-02 11:30:10
0 跟貼 0
AReaL v1.0開源，智能體強化學習「一鍵接入」

機器之心Pro 2026-03-05 14:46:18
0 跟貼 0
奧特曼兩大「死對頭」聯手，但你才是這場 Claude 發布會最大的贏家

AppSo 2026-05-07 09:41:28
0 跟貼 0
華為工程師，偷偷用中文寫代碼，這事在硅谷炸鍋了

逗比歡樂營 2026-05-06 09:28:28
1 跟貼 1
女子深夜下班回家，竟被自家房門反鎖在外

南陽日報 2026-05-06 19:18:04
387 跟貼 387
景區裝電梯無痛爬山被質疑過度開發

極目新聞 2026-05-02 17:18:12
4162 跟貼 4162
空腹抽血，喝水算不算破壞？很多人意外！檢驗科醫生權威解答

環球網資訊 2026-05-06 13:46:09
821 跟貼 821
三角洲部隊內部組織架構！

浩然簡史 2026-05-04 19:53:21
0 跟貼 0
“排隊3小時，打卡1分鐘”，多景區迎“潑天流量”

澎湃新聞 2026-05-06 00:04:10
3855 跟貼 3855
Excel表格太亂？試試10%可見法則

賽博蘭博 2026-05-06 23:40:57
0 跟貼 0
算法能模擬情緒，卻算不出那一眼的萬水思緒

芒果媽媽 2026-05-04 02:34:44
0 跟貼 0
對立極化，是算法的鍋還是人的鍋

觀察者網 2026-05-07 11:15:59
0 跟貼 0
他用DeepSeek-V4手搓Agent，沖上GitHub熱榜第一！

智東西 2026-05-07 08:51:24
0 跟貼 0
老程序員離職，臨走竟然刪除所有代碼，老板找來讓他恢復，合理嗎

詩意Traveler 2026-05-07 02:27:37
0 跟貼 0
龍蝦軍團有了最強「視力」！一眼看圖直接寫代碼-1

機器之心Pro 2026-04-02 16:56:32
0 跟貼 0
一篇叫《罌粟花》的文章，點進去卻什么都沒有

時光慢郵啊 2026-05-07 00:08:11
0 跟貼 0
日本挑釁不停，中方重磅文件亮劍，戰敗國身份再成焦點

附允歷史觀 2026-05-05 15:44:47
0 跟貼 0
Anthropic CEO：如果我是25歲，不會選編程，會選

機器之心Pro 2026-04-18 12:00:00
0 跟貼 0
媒體：來南京下跪才是真懺悔

極目新聞 2026-05-07 00:57:37
1868 跟貼 1868
國產雙開源：讓Mac成為你的私人AI工作站

機器之心Pro 2026-05-07 09:31:27
0 跟貼 0
雙面膠中婆婆不讓麗鵑花錢的背后，實則是在維護自己的生存邏輯

佚名影視說 2026-05-02 19:21:13
13 跟貼 13
媒體：伊朗襲擊阿聯酋并非軍事沖動總統再次公開道歉

中國新聞周刊 2026-05-06 18:10:56
354 跟貼 354
男子購百萬保險被邀免費游老撾花數十萬買"熊膽"心虛

上觀新聞 2026-05-06 13:24:13
320 跟貼 320
強化學習實戰訓練營①：從零入門，一節課搞懂 RL 核心邏輯！強化學習入門基礎與核心概念詳解！

盧菁老師 2026-05-06 09:13:22
0 跟貼 0
綜合消息丨漢坦病毒涉疫郵輪病例數已升至8例

新華社 2026-05-06 22:31:33
1101 跟貼 1101
已達成共識滬蘇浙皖將共同出資、共同管理

上觀新聞 2026-05-06 21:14:04
102 跟貼 102
丟了7年的手機突然發回定位還自動拍下了使用者的照片失主：已經成功要回了手機

閃電新聞 2026-05-06 12:58:59
1232 跟貼 1232
《賽博朋克2》新進展！虛幻五打造瞄準頂級敘事！

游民星空 2026-05-06 15:15:26
2 跟貼 2

婆婆退休宴20口獨漏我，關機旅游回家老公痛哭九百萬養老金沒了

婆婆退休宴20口獨漏我，關機旅游回家老公痛哭九百萬養老金沒了

曉艾故事匯

2026-05-07 11:02:58

歷史獎金排名更新！吳宜澤躍居第47位，丁俊暉中國最高火箭第一！

歷史獎金排名更新！吳宜澤躍居第47位，丁俊暉中國最高火箭第一！

世界體壇觀察家

2026-05-07 06:26:13

我老公是上門女婿，我父母那天把他罵走了，6個月都沒回來

我老公是上門女婿，我父母那天把他罵走了，6個月都沒回來

千秋文化

2026-04-28 20:12:39

苦臉小花被平臺封殺了？張子楓手臂傷疤？吳昕踩謝娜？喬欣要退圈了？姨太問答

苦臉小花被平臺封殺了？張子楓手臂傷疤？吳昕踩謝娜？喬欣要退圈了？姨太問答

毒舌扒姨太

2026-05-06 22:27:39

尼克斯2比0！三人20+1將堪比定海神針 “馬喬組合”45分難救費城

尼克斯2比0！三人20+1將堪比定海神針 “馬喬組合”45分難救費城

槍炮籃球 PiU

2026-05-07 10:10:18

三星中國涉多起法律糾紛，旗下50余家分支機構已注銷

三星中國涉多起法律糾紛，旗下50余家分支機構已注銷

PChome電腦之家

2026-05-07 11:06:20

女子玩瀑布秋千墜亡，“已達成賠償協議”，目擊者：她頭撞到瀑布凸出巖石上，景區曾稱“包活”，勸體驗者“膽子要放大”，警方已介入

女子玩瀑布秋千墜亡，“已達成賠償協議”，目擊者：她頭撞到瀑布凸出巖石上，景區曾稱“包活”，勸體驗者“膽子要放大”，警方已介入

沈陽公交網小林

2026-05-07 00:14:19

黃仁勛下定決心徹底不裝了！

安安說

2026-05-07 11:03:58

你以為麻豆傳媒是賣片的，其實它是賣人的

你以為麻豆傳媒是賣片的，其實它是賣人的

創始人筆記

2026-04-23 21:44:50

特朗普：若伊朗同意協議將開放霍爾木茲海峽，否則轟炸就會開始，且規模和強度將遠超以往，伊朗稱正在審閱美方提案

特朗普：若伊朗同意協議將開放霍爾木茲海峽，否則轟炸就會開始，且規模和強度將遠超以往，伊朗稱正在審閱美方提案

每日經濟新聞

2026-05-07 00:33:15

真相大白！那臺拉缸的張雪820RR返廠，經拆解后本人公布故障原因

真相大白！那臺拉缸的張雪820RR返廠，經拆解后本人公布故障原因

娛樂圈的筆娛君

2026-05-07 06:18:09

俄羅斯是真眼饞！中國大量東風導彈將要退役，可以出口換外匯嗎？

俄羅斯是真眼饞！中國大量東風導彈將要退役，可以出口換外匯嗎？

潮鹿逐夢

2026-05-06 16:44:26

盧卡?東契奇傷病重大更新，對湖人而言是糟糕消息

盧卡?東契奇傷病重大更新，對湖人而言是糟糕消息

夜白侃球

2026-05-07 10:37:22

世界杯FIFA開出天價版權，電視轉播談判陷僵局

世界杯FIFA開出天價版權，電視轉播談判陷僵局

齊魯壹點

2026-05-06 12:45:16

知名醫科大學原校長被查，曾為院士候選人，是當地“頂流”醫生

知名醫科大學原校長被查，曾為院士候選人，是當地“頂流”醫生

梅斯醫學

2026-05-06 19:00:04

冒死突圍！伊朗外長抵京：身陷三重絕境，北京成其最后“生路”？

冒死突圍！伊朗外長抵京：身陷三重絕境，北京成其最后“生路”？

滄海一書客

2026-05-07 09:35:13

加速高血脂惡化的原因：喝酒排第9，排第1的，很多人天天做

加速高血脂惡化的原因：喝酒排第9，排第1的，很多人天天做

健康科普365

2026-05-06 09:10:47

“停火了，開火了，叫停了”

中國新聞周刊

2026-05-06 18:10:56

導演王晶揭秘當年婚姻變故，不是王菲，三年五次懷胎才是分開根源

導演王晶揭秘當年婚姻變故，不是王菲，三年五次懷胎才是分開根源

夸大其詞的說

2026-05-06 05:35:37

隨著浙江2-1絕殺玉昆，10人國安3-0，中超最新積分：海牛反超海港

隨著浙江2-1絕殺玉昆，10人國安3-0，中超最新積分：海牛反超海港

球場沒跑道

2026-05-06 22:13:27

機器之心Pro

專業的人工智能媒體

12932文章數 142644關注度

往期回顧全部

科技要聞

凌晨突發！馬斯克租22萬塊GPU給“死敵”

頭條要聞

北京三位女大學生青海自駕游2死1傷傷者一審獲刑4年

頭條要聞

北京三位女大學生青海自駕游2死1傷傷者一審獲刑4年

體育要聞

阿森納巴黎會師歐冠決賽！5月31日開戰

娛樂要聞

小S阿雅重返大S母校，翻看大S畢業照

財經要聞

特朗普：美伊“很有可能”達成協議

汽車要聞

理想為什么不做轎車，有了解釋……

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

本地

藝術

教育

時尚

親子

本地新聞

用青花瓷的方式，打開西溪濕地

藝術要聞

這位老教授筆下的青年，活力滿滿

教育要聞

【數育未來專家談·第一期】智能思政課堂、精準德育關懷、沉浸式育人場景……數字教育如何為德育工作提質增...

“白色闊腿褲”今年夏天又火了！這樣穿時髦又高級

親子要聞

女星堅持母乳喂養引熱議！研究顯示，寶寶25%腸菌來自媽媽，乳汁可塑造天然免疫力

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版