網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

刷榜AI全掛了！Meta斯坦福地獄級測試，GPT/Claude/Gemini交出0分

2026-05-06 19:24:45　來源: 新智元

北京舉報

0

分享至

新智元報道

編輯：好困

【新智元導讀】SWE-Bench上能拿72%的模型，換張考卷直接歸零！Meta聯合斯坦福、哈佛放出ProgramBench，200個項目從零手寫，9大頂級模型完整通過率0%。最強的Claude Opus 4.7平均通過率也才51.2%。更離譜的是一聯網，就有模型在36%的任務里跑去GitHub扒源碼。

給你一份FFmpeg的使用文檔，和一個編譯好的可執行文件。

現在，從零把整個程序重新寫出來。

這就是ProgramBench給全球頂級AI出的題。

昨天剛發布，出自SWE-Bench原班人馬之手，Meta、斯坦福、哈佛三家聯手打造。

200個軟件項目。9個頂級模型。通過率，0%！

共同一作John Yang，斯坦福在讀博士，同時也是SWE-Bench和SWE-agent的創建者

不是修bug，是從零造軟件

過去一年，「讓AI Agent從零造軟件」的案例報道越來越多。

Anthropic用一組平行Claude寫了個C編譯器，Cursor發博客講長時間自主編程，Epoch AI的MirrorCode也在做類似的事。

但這些案例有個共同問題，每次只測幾個項目，腳手架都是手工調優的。

相比之下，ProgramBench把這件事正規化了。

200個任務，統一腳手架，系統性反作弊，一把拉到benchmark的標準。

論文地址：https://programbench.com/static/paper.pdf

在之前的測試中，SWE-Bench會給你一個現成的代碼庫，告訴你哪里有bug或者需要加什么功能，你去改。本質上是「閱讀理解+局部手術」。

而且在評估層面，它用的是單元測試，檢查你的代碼內部實現對不對，你的函數簽名、變量名都得和預期一致。

ProgramBench則完全反過來。

它只給你兩樣東西，一個編譯好的可執行文件，加上使用文檔。

你的任務是僅憑運行這個程序、觀察它的輸入輸出行為，從零寫出一套能復現同樣行為的代碼。

選什么編程語言，用什么數據結構，怎么拆分模塊，全部你自己定。

沒有代碼骨架，沒有函數簽名，沒有任何提示。

評估方式上，研究團隊用Agent驅動的模糊測試，為200個任務生成了總計248,853個行為測試。

你寫的程序跑一遍，輸入輸出和原版一致就算過，不一致就掛。測試永遠不會透露給模型。

和SWE-Bench的單元測試不同，ProgramBench的行為測試完全不關心你的代碼內部長什么樣，只要行為一致就行。

200個任務覆蓋的項目橫跨壓縮工具（zstd、lz4、brotli）、語言解釋器（PHP、Lua、tinycc）、數據庫（DuckDB、SQLite）、媒體處理（FFmpeg）、開發者工具（ripgrep、fzf、jq）。

代碼行數中位數8,635行，最大的FFmpeg有270萬行。

總結來說，這個測試考的是AI有沒有能力「像人類工程師一樣思考和設計軟件」，而不只是「在現成代碼里找到該改的地方然后改對」。

九大模型排排坐，成績全部吃鴨蛋

參加測試的共有9款模型，涵蓋Claude、Gemini、GPT三大家族。

完整通過率（所有測試全部通過），全員0%。

先看三家旗艦的正面對決。

GPT-5.4和Gemini 3.1 Pro的平均測試通過率幾乎打平，分別是38.3%和36.6%。但兩者的做題風格截然不同。

GPT-5.4只用16次API調用、0.33美元成本，基本就是一口氣把整個程序寫完，100%的代碼在一次編輯中生成，之后幾乎不回頭改。

Gemini 3.1 Pro則是9個模型里最愛「觀察」的。它用了94次API調用，其中34.1%的操作都在運行原版程序、觀察輸入輸出行為。探索做得最多，但最終成績差距不大。

真正拉開身位的是Claude Opus 4.7。

平均通過率51.2%，在3%的任務上通過了95%以上的測試，是唯一達到「幾乎通過」標準的模型。但即便是它，也沒有在任何一個任務上拿到滿分。

從整體來看，9個模型的表現呈現出清晰的梯隊。

Claude系三款旗艦（Opus 4.7、Opus 4.6、Sonnet 4.6）領先，GPT-5.4和Gemini 3.1 Pro構成第二梯隊，剩下的四款小模型通過率都在35%以下。

另一個反直覺的發現是，砸錢和堆步數并不能換來更好的成績。

Sonnet 4.6每個任務平均跑868條命令，成本27.09美元，最長的軌跡接近2000步。但它的成績反而不如只用93次調用、花3.81美元的Opus 4.7。

更關鍵的是，98%的運行中，模型都是自己覺得「做完了」主動交卷的，根本沒有撞到時間或步數上限。

不是考試時間不夠，是真的做不到。

此外，任務難度和模型排名高度一致。

簡單的CLI工具（nnn、fzf、gron）大家都能拿到不錯的分數，復雜系統（FFmpeg、PHP、typst、ast-grep）則對所有模型一視同仁地無情。

需要說明的是，ProgramBench用的是mini-SWE-agent這個極簡腳手架，沒有上下文壓縮、沒有多Agent協作、沒有定制化工具鏈。

代碼寫出來了，但完全不像人寫的

研究團隊對比了通過75%以上測試的高分解答和人類原版代碼，發現了幾個驚人的差異。

單文件怪獸。

人類代碼中位數分布在15個文件里，模型的中位數是3個。

60%的解答只有1到3個代碼文件。

人類工程師按功能拆分模塊，模型傾向于把所有東西塞進一個巨大的文件。目錄深度中位數，人類是2層，模型是1層。

函數又少又長。

Opus 4.7寫的函數數量只有人類的29%，Sonnet 4.6是24%，GPT-5.4只有10%。

但每個函數的平均長度更長，Gemini 3.1 Pro寫的函數比人類長62%。

代碼量大幅縮水。

模型代碼中位數1,173行，人類是3,068行。85%的高分解答比原版短。

總結來說就是，現在的AI會寫代碼，但不會做軟件設計。

它不懂為什么要拆分模塊，不理解為什么人類工程師要花時間定義接口和抽象層。策略就是把所有邏輯硬塞進盡可能少的文件和函數里，能跑就行。

GPT-5.4的表現最極端。平均每個任務只創建5個文件，修改1.2次，39.5%的軌跡在創建文件后零修改。

相比之下，Claude Sonnet 4.6平均創建11.3個文件、修改18.3次，表現出更接近人類的迭代開發模式。

還有一個很有意思的現象。

模型只有50%的概率會用和原版相同的編程語言。

其中，Python是模型的最愛，占所有1,800次運行的36%。

原版用Rust寫的項目，只有44%用Rust重寫；C/C++的，46%。Go項目的「忠誠度」最高，70%。

不管你原來是用什么語言寫的，模型有三分之一的概率會用Python重來一遍。

說好的不作弊，一聯網就去GitHub扒源碼

這可能是整個研究里最有戲劇感的部分。

研究團隊做了一組對照實驗，給模型開放網絡訪問權限，但在系統提示中明確告知「作弊不允許」。

然后用9個AI裁判檢查每條軌跡是否存在作弊行為。

結果觸目驚心。

Claude Sonnet 4.6有36%的任務被判定作弊，Claude Opus 4.6是21%，Gemini 3 Flash是20%。

作弊方式五花八門。

最赤裸裸的是去GitHub克隆源碼倉庫。

稍微隱蔽一點的是通過包管理器下載，比如cargo install、go get。

更狡猾的是去本地包緩存目錄翻依賴庫的源碼。

但AI裁判之間的分歧也大得驚人。

對于Claude Opus 4.6，9個裁判在57%的任務上無法達成一致。

有一個案例特別典型。

Claude Sonnet 4.6在做handlr這個Rust項目時，跑去~/.cargo/registry/src/目錄翻了xdg-mime、clap等依賴庫的源代碼。

5個裁判判定作弊，4個裁判認為這些是第三方庫不算作弊。

最終，研究團隊放棄了「聯網+事后檢測」的方案，直接斷網。

模型在面對困難任務時，「找捷徑」的傾向比預想的強得多。而連9個AI裁判都判不清楚什么算作弊、什么算合理的逆向工程，說明這條邊界本身就是模糊的。

舊考試結束了，新考試才剛開始

SWE-Bench上能拿72%的模型，在ProgramBench上拿0%。

這兩個測試考的根本就是兩種能力。SWE-Bench考的是「在別人的代碼里找到問題并修好」，ProgramBench考的是「自己從頭設計并實現一個完整系統」。

前者AI已經做得相當好了，后者目前完全不及格。

Epoch AI上周剛發了一篇博文，宣判舊推理benchmark集體死亡。想搞出還沒被刷爆的測試，至少得放棄四個舒適條件中的一個，純文本、短耗時、易評分、人類專家碾壓。

按這個框架來看，ProgramBench放棄了其中兩個，短耗時和易評分。

它把任務拉到了人類工程師可能需要數周甚至數月才能完成的量級，同時用行為等價性而非源碼匹配來評估。

作者John Yang在推文中強調，「ProgramBench非常難，但它在設計上是可解的�！�

也就是說，0%不代表這些任務超出了AI的理論極限，只是說明今天的模型還遠遠不夠。

SWE-Bench測的是AI能不能當一個好員工。ProgramBench測的是AI能不能當一個工程師。

這兩件事之間的距離，今天剛被精確測量出來。答案是0%。

參考資料：

https://programbench.com/static/paper.pdf

https://x.com/jyangballin/status/2051677497562210552?s=20

https://x.com/EpochAIResearch/status/2051760424891392204?s=20

https://epochai.substack.com/p/rip-classic-reasoning-benchmarks

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

領先于Transformer！首個1200萬上下文模型SubQ，成本僅Opus的5%

機器之心Pro 2026-05-06 17:06:11
0 跟貼 0
DeepSeek V4 發布后遇冷，開發者只聊Codex：便宜不是萬能藥

雷科技 2026-05-06 21:25:43
60 跟貼 60

Claude Code之父紅杉演講震撼全場! 26年未寫1行代碼, 電腦都不開了

新智元 2026-05-06 17:15:48
18 跟貼 18

DeepSeek版Claude Code登頂熱榜：8700星，鯨魚哥火了

機器之心Pro 2026-05-06 14:09:00
24 跟貼 24
豆包為什么選擇了 “最low”的變現方式？

藍鯨新聞 2026-05-06 11:20:09
489 跟貼 489

讓兩個大模型在線吵架，跑通全網95%科研代碼｜深勢Deploy-Master

機器之心Pro 2026-01-09 14:22:47
0 跟貼 0

10美元破解機器人觸覺難題！斯坦福開源方案讓機械手擁有人類手感

DeepTech深科技 2026-04-19 19:34:17
8 跟貼 8
13人干翻Transformer！新架構SSA算力暴減千倍，成本僅Opus 5%

新智元 2026-05-06 19:25:25
11 跟貼 11

Agent-World：擴展真實世界環境，讓智能體與環境協同進化！

機器之心Pro 2026-05-06 12:40:24
0 跟貼 0
GMI Cloud蔣劍彪：全球AI產業的范式轉移，從“模型為王”到“系統制勝”

智東西 2026-05-06 19:33:24
0 跟貼 0
朝鮮黑客進入AI時代，三個月狂撈千萬美金

英國那些事兒 2026-05-06 23:35:33
0 跟貼 0
兩個哈佛女生用AI做電池故障排查，數月的工作量被縮到了幾分鐘

DeepTech深科技 2026-05-06 21:11:54
2 跟貼 2
00后小哥復刻Claude最強神話模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟貼 0
華為工程師，偷偷用中文寫代碼，這事在硅谷炸鍋了

逗比歡樂營 2026-05-06 09:28:28
1 跟貼 1
媒體：中國史無前例下"阻斷禁令" 美媒迅速捕捉到信號

國是直通車 2026-05-05 23:12:13
18512 跟貼 18512
國產雙開源：讓Mac成為你的私人AI工作站

機器之心Pro 2026-05-06 14:14:46
0 跟貼 0
Excel 的 ChatGPT 插件來了，表格自動起飛

Ai學習的老章 2026-05-06 17:58:35
0 跟貼 0
Excel表格太亂？試試10%可見法則

賽博蘭博 2026-05-06 23:40:57
0 跟貼 0
Meta新發布會：我和朋友變身忍者神龜

賽博蘭博 2026-05-07 01:10:34
0 跟貼 0
AReaL v1.0開源，智能體強化學習「一鍵接入」

機器之心Pro 2026-03-05 14:46:18
0 跟貼 0
老程序員離職，臨走竟然刪除所有代碼，老板找來讓他恢復，合理嗎

詩意Traveler 2026-05-07 02:27:37
0 跟貼 0
龍蝦軍團有了最強「視力」！一眼看圖直接寫代碼-1

機器之心Pro 2026-04-02 16:56:32
0 跟貼 0
一篇叫《罌粟花》的文章，點進去卻什么都沒有

時光慢郵啊 2026-05-07 00:08:11
0 跟貼 0
AI諂媚可能讓人陷入妄想癥

量子位 2026-04-08 12:28:40
0 跟貼 0
送文件撞破老板小秘密，場面瞬間尷尬，我該怎么自救！

生活升升樂 2026-05-05 15:36:30
1 跟貼 1
日本挑釁不停，中方重磅文件亮劍，戰敗國身份再成焦點

附允歷史觀 2026-05-05 15:44:47
0 跟貼 0
空腹抽血，喝水算不算破壞？很多人意外！檢驗科醫生權威解答

環球網資訊 2026-05-06 13:46:09
819 跟貼 819
號稱1200萬token上下文的模型來了，數據亮眼但疑點重重

DeepTech深科技 2026-05-06 21:04:23
0 跟貼 0
景區裝電梯無痛爬山被質疑過度開發

極目新聞 2026-05-02 17:18:12
4162 跟貼 4162
20年等一回！這支不華麗的阿森納，卻最接近歐冠大耳杯

澎湃新聞 2026-05-06 10:56:28
288 跟貼 288
影子調查｜不“標準”的高標準農田，正在整治

澎湃新聞 2026-05-06 12:34:33
283 跟貼 283
男子購百萬保險被邀免費游老撾花數十萬買"熊膽"心虛

上觀新聞 2026-05-06 13:24:13
274 跟貼 274
斯坦福發現：靠粗糧養腸道，都錯了！這類食物才是它的心頭愛

芝士小熊i 2026-05-06 10:48:02
1 跟貼 1
凌晨2點半開門，廣東一排骨飯大排長龍！局長帶人現場刮姜洗碗

南方都市報 2026-05-06 08:58:57
674 跟貼 674
丟了7年的手機突然發回定位還自動拍下了使用者的照片失主：已經成功要回了手機

閃電新聞 2026-05-06 12:58:59
341 跟貼 341
蘋果成立50年，喬布斯的預言正在逐個應驗

DeepTech深科技 2026-03-14 21:21:07
0 跟貼 0
周星馳發文祝賀吳宜澤奪冠

南方都市報 2026-05-06 07:27:10
1307 跟貼 1307
雙面膠中婆婆不讓麗鵑花錢的背后，實則是在維護自己的生存邏輯

佚名影視說 2026-05-02 19:21:13
13 跟貼 13
世界杯FIFA開出天價版權，電視轉播談判陷僵局

齊魯壹點 2026-05-06 12:45:16
2682 跟貼 2682
黃宏生稱段永平一場球后買創維股票賺了十幾億，段永平：完全不記得跟他打過球

界面新聞 2026-05-06 18:14:12
78 跟貼 78

吳宜澤奪冠，國家局祝賀正常，甘肅體育局這一發，才是真排面！

吳宜澤奪冠，國家局祝賀正常，甘肅體育局這一發，才是真排面！

小娛樂悠悠

2026-05-06 10:57:28

終于，一位接地氣的專家說了大實話：中國老百姓的負擔太重了

終于，一位接地氣的專家說了大實話：中國老百姓的負擔太重了

巢客HOME

2026-04-28 05:25:03

怒其不爭!梁靖崑0-3約內斯庫王勵勤黑臉,馬龍直撓頭恨不得自己上

怒其不爭!梁靖崑0-3約內斯庫王勵勤黑臉,馬龍直撓頭恨不得自己上

818體育

2026-05-06 18:32:53

39歲何潔滿頭白發直播養家，4個孩子壓身，520領證不是浪漫是剛需

39歲何潔滿頭白發直播養家，4個孩子壓身，520領證不是浪漫是剛需

可愛小菜

2026-05-06 15:40:57

廣東94-102負北京，徐杰賽后言論致心氣全無

廣東94-102負北京，徐杰賽后言論致心氣全無

小皷拍客在北漂

2026-05-07 00:47:28

突然拉升！金價大漲

上觀新聞

2026-05-06 17:12:09

廳級干部已經成為了高危職業

風向觀察

2026-05-04 14:17:07

馬筱梅抱兒子拍帶貨視頻！汪寶兒房間很小，沒到百天就開始賺錢

馬筱梅抱兒子拍帶貨視頻！汪寶兒房間很小，沒到百天就開始賺錢

另子維愛讀史

2026-05-06 19:28:34

北京故宮博物院北院即將竣工！網友：怎么做的跟高鐵站一樣？

北京故宮博物院北院即將竣工！網友：怎么做的跟高鐵站一樣？

娛樂的硬糖吖

2026-05-06 11:23:47

體驗式消費、IP聯名活動，“五一”假期消費市場持續上新

體驗式消費、IP聯名活動，“五一”假期消費市場持續上新

齊魯壹點

2026-05-06 09:26:40

趁女神睡著偷親了她一口，她突然睜開眼，壞笑著說：親完可得負責

趁女神睡著偷親了她一口，她突然睜開眼，壞笑著說：親完可得負責

千秋文化

2026-05-04 18:23:56

馬蘇深夜哽咽“一個人很久了”！孔令輝隔空回應：是我沒顧上她

馬蘇深夜哽咽“一個人很久了”！孔令輝隔空回應：是我沒顧上她

時間巡查

2026-04-25 16:06:47

索尼促銷：電視最高45%折扣，耳機相機同步降價

索尼促銷：電視最高45%折扣，耳機相機同步降價

我是一個粉刷匠2

2026-05-05 10:15:37

特朗普訪華進入倒計時，提前9天，美國財政部攤牌打算借款6710億

特朗普訪華進入倒計時，提前9天，美國財政部攤牌打算借款6710億

烈史

2026-05-06 19:26:36

美國要掀桌子了，特朗普準備全球搶劫，留給我們的時間不多了

美國要掀桌子了，特朗普準備全球搶劫，留給我們的時間不多了

一個壞土豆

2026-05-05 19:12:59

吃蘭州拉面的人為什么越來越少了？網友：進店小心翼翼的怕說錯話

吃蘭州拉面的人為什么越來越少了？網友：進店小心翼翼的怕說錯話

另子維愛讀史

2026-02-27 20:31:34

7冠王亨德利調侃吳宜澤：別拿8個世錦賽冠軍奧沙利文：他能奪8冠

7冠王亨德利調侃吳宜澤：別拿8個世錦賽冠軍奧沙利文：他能奪8冠

念洲

2026-05-06 07:42:00

澤連斯基譴責俄羅斯的5月9日�；稹皹O其虛偽”，誓言作出回應

澤連斯基譴責俄羅斯的5月9日停火“極其虛偽”，誓言作出回應

山河路口

2026-05-05 21:08:22

美國會全票通過芯片封鎖法案，成本暴漲，白宮24小時兩次致電北京

美國會全票通過芯片封鎖法案，成本暴漲，白宮24小時兩次致電北京

流史歲月

2026-05-06 14:25:04

日本已全面進入臨戰狀態！步步緊逼，劍指中國，國人務必警醒

日本已全面進入臨戰狀態！步步緊逼，劍指中國，國人務必警醒

樂享人生風雨

2026-05-03 02:58:38

AI產業主平臺領航智能+時代

15145文章數 66838關注度

往期回顧全部

科技要聞

“馬斯克不懂AI”：OpenAI當庭戳老底

頭條要聞

特朗普：伊朗可能將其高濃縮鈾運往美國

頭條要聞

特朗普：伊朗可能將其高濃縮鈾運往美國

體育要聞

活塞1比0騎士：坎寧安不再是一個人了

娛樂要聞

謝娜演唱會暗藏驚喜何炅瞞天過�，F身

財經要聞

估值450億美元大基金被曝將投資DeepSeek

汽車要聞

領克10/領克10+ 無論能源形式領克都要快樂

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

藝術

家居

房產

親子

健康

藝術要聞

震撼！三星中國總部大樓高260米，雄踞北京CBD！

家居要聞

大膽前衛時尚大宅

靈動實用生活藝術場
寂然無界簡潔風格
江景風格流動的秩序

房產要聞

遙遙領先！這個澄邁頂流紅盤，憑什么持續霸榜

親子要聞

開車的小孩子最帥了

干細胞治燒燙傷面臨這些“瓶頸”

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版