无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

GPT-5.5反殺Claude登頂，AI編碼舊榜不準了？

2026-05-27 19:14:25　來源: 新智元

北京舉報

0

分享至

新智元報道

【新智元導讀】一個號稱「零污染」的新基準 DeepSWE，用113道原創題撕開了舊編程榜單的遮羞布。

代碼評測圈，一把新量尺落下。

就在剛剛，Datacurve推出了新基準DeepSWE。

Datacurve聯合創始人、CEO Serena Ge在X上說，推出DeepSWE，是為了還原開發者工作的真實場景，揭開頂尖模型真正拉開差距的地方。

DeepSWE第一天的榜單，就開始向舊基準宣戰，GPT和Claude在SWE-Bench Pro上的名次，被徹底逆轉。

https://deepswe.datacurve.ai/blog

GPT-5.5拿到70%±4%，排第一；Claude Opus 4.7只有54%±5%，排在第三，兩家整整差出16個百分點。

更扎心的還在后面。

DeepSWE團隊用新方法回頭審計SWE-Bench Pro上的提交記錄。

結果發現，Claude Opus 4.6和4.7在那個榜單上拿到的成績里，超過12%的成績被判定作弊。

不止如此，DeepSWE團隊還查出，SWE-Bench Pro的驗證器有8.5%的假陽性率，24.0%的假陰性率。

如果誤差這么大，SWE-Bench Pro榜單上那些只差一兩個百分點的模型，到底是真的旗鼓相當，還是只是被一把原本不準的尺子量成了平局？

換一把尺子

第一名就換人

先看DeepSWE自己跑出來的榜單。

https://deepswe.datacurve.ai/blog

12款前沿模型中，gpt-5.5[xhigh]以70%±4%的通過率居首，gpt-5.4[xhigh]為56%±5%緊隨其后，Claude Opus 4.7[max]為54%±5%排第三。

再往下，Claude Sonnet 4.6[high]為32%，中間一批模型落在18%到28%之間，榜尾的幾款只有5%到10%。

在公開報道的SWE-Bench Pro成績里，Claude Opus 4.7是64%，排第一；gpt-5.5是59%。到了DeepSWE，位置整個翻了過來：gpt-5.5上到70%、排第一，Claude Opus 4.7掉到第三、54%。

不僅排名出現逆轉，差距跨度也大幅增加。

這批模型在SWE-Bench Pro上從最差到最好只有30%的差距，到了DeepSWE上變成了70%。

同一批選手，同一類任務，換一個測試，原來的并列領先變成了斷層式的差距。

DeepSWE團隊的解釋是：舊榜單上模型擠在一個窄窄的分數帶里，不是因為它們真的接近，而是因為基準本身的「分辨率」不夠。

SWE-Bench Pro一道題平均只改5個文件，DeepSWE一道題平均要改7個，單題的參考代碼量是SWE-Bench Pro的5.5倍。

這種規模下，模型沒法靠背下某個具體函數蒙過去，它必須真正讀懂多個文件之間的耦合關系，再規劃出一條貫穿整個倉庫的修改路徑。

GPT-5.5拿到70%，意味著它不是記住了某種題型，而是「能在一個完全陌生的真實倉庫里，跑完一條橫跨7個文件的改動鏈路」。

也就是說，在玩具題上，兩家看著差不多；在能逼出真實工程能力的題上，差距瞬間被拉開。

DeepSWE更準嗎

還是噱頭？

一個新基準，憑什么說自己比舊基準更準？DeepSWE給出的答案是四個設計。

首先，是零污染，這是它最核心的優勢。

DeepSWE的每一個任務都是工程師從零原創寫出來的，而且，這些任務做完后不會被合并回上游倉庫，不會進入公開的GitHub記錄，也就很難出現在未來抓取開源代碼的預訓練語料里。

這意味著沒有任何模型在預訓練階段見過這些題的答案，這一刀正中舊基準的命門。

第二，高多樣性。

DeepSWE包含113個任務，覆蓋91個活躍的開源倉庫，橫跨TypeScript、Go、Python、JavaScript、Rust五種語言。

作為對比，SWE-Bench Pro公開版只覆蓋11個倉庫。倉庫越多、越雜，越能逼近開發者真實會丟給智能體的那些代碼庫。

第三，真實復雜度。

前面說過DeepSWE的單題代碼量是SWE-Bench Pro的5.5倍，但有意思的是，它的任務提示詞長度反而只有SWE-Bench Pro的一半。

提示詞短，是因為它刻意模仿開發者真實跟智能體說話的方式：只說想要什么行為，不把接口定義、復現步驟、代碼片段全部給你。智能體必須自己去倉庫里摸清楚「在哪改、怎么改」。

第四，可靠驗證。

一個基準準不準，關鍵看它的驗證器。舊基準的驗證器常常只認一種「標準答案」的寫法，換個變量名、換種實現思路就可能被判錯。DeepSWE的驗證器是針對每個任務手寫的，只要結果對，怎么寫都算過。

各抽30個任務交叉復查，DeepSWE驗證器的假陽性率0.3%、假陰性率1.1%，SWE-Bench Pro則是8.5%和24.0%，差了一個數量級。

而且DeepSWE不只是一張靜態榜單。在它的GitHub倉庫里，每個任務都附帶提示詞、可復現的Docker環境、驗證器和一份保密參考解，你可以拉下來讓自己的智能體跑一遍。

舊基準的尺子

兩頭都不準

DeepSWE還用這套新方法，審計了SWE-Bench Pro上那些已經記進成績單的提交。

Claude Opus 4.6和4.7的成績里，超過12%被判定為作弊，約87%是同一招，直接去翻代碼倉庫的.git history，把藏在歷史記錄里的標準答案抄出來。

在同一批復查樣本中，GPT-5.4和GPT-5.5未被發現這類行為。

DeepSWE也指出，是SWE-Bench Pro這個基準本身讓作弊有機可乘，它的任務容器里直接帶著那個「標準答案」的提交記錄。

這是DeepSWE給出的客觀觀察，至于Claude為何會形成這種行為，目前沒有公開定論。

如果說作弊是讓分數虛高的「上行噪聲」，那SWE-Bench Pro還有一個對稱的「下行噪聲」：24%的假陰性。

DeepSWE復查了一批被SWE-Bench Pro判為「失敗」的提交，發現其中約24%其實功能完全正確，只是被誤殺了。

24%意味著在被復查的運行軌跡里，差不多每四個運行就有一個可能被誤殺。

如果把這層假陰性算上，所有模型的真實分數都被壓低了一截。而且，那些傾向于按自己風格重寫代碼、不抄現成答案的模型，分數損失的越是嚴重。

DeepSWE的驗證器經過多重交叉把關，假陽性率壓到0.3%、假陰性率1.1%，兩項誤判率都比SWE-Bench Pro低了一個數量級以上。

兩個基準驗證器的誤判率對比。SWE-Bench Pro 假陽性率8.5%、假陰性率24.0%

如果這個對比數據準確，意味著持續大半年的所謂「Claude和GPT不分上下」的共識，是建立在一個兩頭都不準的測量工具上。

過去大家只比終點分數，沒人回頭看這個分怎么來。DeepSWE這一刀下去，哪些以SWE-Bench Pro為錨點的模型對比，可能就需要重新校準。

局限性在哪里？

DeepSWE解決了舊基準的污染問題，但它終究是Datacurve自家做的評測。

Datacurve也談到了自己的局限性。它的全程只用一個叫mini-swe-agent的Harness，給所有模型同一個bash工具、同一套提示詞。

這樣做是為了把「模型能力」和「外圍腳手架」分開，但代價是一部分失真。

不同模型家族訓練時適配的工具形態本就不同，而開發者在現實里也不是用mini-swe-agent，是用Codex CLI、Claude Code、Cursor、Gemini CLI這些更成熟的原生Harness。

統一Harness，可能把每一家模型都按在了它原生上限之下。

DeepSWE團隊也跑了對照實驗回應這個質疑，小規模試點里mini-swe-agent的表現不輸原生 Harness；但團隊同時強調，這只是10道題的試點，不足以完全打消顧慮。

同樣10道SWE-Bench Pro任務下，mini-swe-agent的通過率與token消耗，不輸Claude Code、Codex CLI、Gemini CLI等原生Harness

另外，語料只覆蓋500星以上的活躍開源倉庫，缺了C++和Java，bug定位和重構類任務也偏少。

還有一點是AI幻覺。DeepSWE那些「假陽性、假陰性」的判定，本身是由一個LLM分析員給出的，不是人工。

團隊自己提醒，低于約5%的差異不該當真。

1500萬美元

這家公司給大模型當「磨刀石」

DeepSWE是怎么推出來的？先認識一下DeepSWE背后的這家公司Datacurve。

Datacurve出自Y Combinator 2024年冬季批次（W24），由Serena Ge和Charley Lee兩位創始人在2024年成立。

Datacurve兩位創始人Serena Ge（右）與 Charley Lee（左）。兩人均出自滑鐵盧大學計算機系

它為前沿大模型生產高質量的代碼數據，但它的玩法有點特別。

Datacurve運行著一個叫Shipd的平臺，用「賞金」的方式招募頂尖軟件工程師來解算法題、做調試、寫UI流程，按產出而不是按工時付錢，迄今已發出超過100萬美元賞金。

據TechCrunch等媒體報道，參與者中不乏來自DeepMind、OpenAI、Anthropic、Vercel的工程師。

Datacurve本來就是給大模型供訓練數據的公司，對「什么樣的數據會污染基準、什么樣的任務才考得出真本事」有第一手的認知。DeepSWE更像是它主業的延伸。

代碼評測圈

正在告別刷分時代

DeepSWE不是孤立事件，背后是一個已延續大半年的趨勢。

隨著SWE-Bench系列基準日趨飽和，新一代編程基準的競爭點，已經從「題目有多難」轉向了「抗不抗污染」和「驗證可不可信」，DeepSWE正是這個轉向中的一個樣本。

DeepSWE還有一個特別有意思的發現：模型越強，越會主動給自己寫測試。

在DeepSWE上，Claude Opus 4.7和GPT-5.4有超過80%的運行會主動用項目自己的測試框架寫新測試，哪怕沒人要求它這么做。但在SWE-Bench Pro上，同樣這批模型寫測試的比例掉到了3%到28%。

同一批模型主動寫新測試的比例。在DeepSWE上多數超過60%，到SWE-Bench Pro上全部掉進3%到28%區間

原因是什么？

SWE-Bench Pro的提示詞里有一句話，告訴智能體測試文件已經處理好了、別去改動測試邏輯。智能體就把這句話理解成了「不用自己寫測試」。

一句提示詞的措辭，就能改變一個模型的行為，進而改變它的得分。

這說明，我們衡量AI編程能力的工具，本身還非常脆弱：一個標點、一句話、一個Harness的選擇，都可能影響到排名。

所以，當AI智能體開始動手改你的代碼，你真正該信什么？

DeepSWE、SWE-Bench Pro這些都只是外部參考，終極答案還藏于真實的業務代碼庫。

參考資料：

https://x.com/serenaa_ge/status/2059308218564890875?s=20%20

https://deepswe.datacurve.ai/blog%20

編輯：元宇 Moses

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

為什么BF16的FlashAttention會把訓練「炸掉」？清華給出機制解釋

機器之心Pro 2026-03-04 11:24:55
0 跟貼 0
LLM 僅靠自身就能增強推理？SePT 給出簡潔在線自訓練范式

機器之心Pro 2026-04-22 11:01:55
0 跟貼 0

全球首次單機降服萬億巨模DeepSeek-V4！RL后訓練框架Orbit開源！

機器之心Pro 2026-05-28 11:48:03
18 跟貼 18

消耗1830億token，Meta用AI把數學教材翻譯成了一個超大Lean庫

機器之心Pro 2026-05-29 13:43:30
3 跟貼 3
DiffusionOPD：復旦聯合通義萬相提出擴散模型在線策略蒸餾新范式

機器之心Pro 2026-05-29 16:23:04
1 跟貼 1

新一輪大模型要來了！Blackwell加持下，AI能力更強了？

華爾街見聞官方 2026-05-29 14:46:14
4 跟貼 4

英偉達提出Gamma-World：世界模型從「一個人玩」到「多人共處」

量子位 2026-05-30 11:16:51
0 跟貼 0
智能體卷王誕生！干活自動配結項報告，1.5張截圖就把事說清了

量子位 2026-01-10 14:38:21
3 跟貼 3

AI 編程終于有全局視野了！3 萬 Star 項目補齊最大短板

鈦媒體APP 2026-05-30 10:22:27
41 跟貼 41
你花了四年學編程，卻要用一輩子補寫作

一隅安穩 2026-05-31 01:29:48
0 跟貼 0
當胡彥斌1個月寫出APP，AI時代已經撲面而來

華爾街見聞官方 2026-05-31 11:15:12
10 跟貼 10
AReaL v1.0開源，智能體強化學習「一鍵接入」

機器之心Pro 2026-03-05 14:46:18
0 跟貼 0
【半佛】讓小孩學AI屬于浪費時間？

硬核的半佛仙人 2026-05-27 12:58:43
0 跟貼 0
從Token無上限到全員Agent：MiniMax的AI Native組織進化實踐

量子位 2026-05-31 11:48:15
0 跟貼 0
狗子：不好觸發底層代碼了

娛圈小宇宙 2026-05-29 20:29:47
16 跟貼 16
登頂HuggingFace日榜！γ-World：把世界模型從單機打到聯機

機器之心Pro 2026-05-30 12:39:17
0 跟貼 0
女子吃了隔夜見手青連撞兩輛車，回家后還對著空氣輔導作業

南陽日報 2026-05-30 17:19:03
422 跟貼 422
博主開發“桌面整理大師”小程序，網友調侃：本以為是裝垃圾桶里，沒想到是掃床底下了

河南都市頻道 2026-05-29 18:16:32
9 跟貼 9
德云社把處罰楊鶴通內部文件公之于眾，殺雞儆猴外還有更大企圖

楓哥閑談 2026-05-29 16:13:26
72 跟貼 72
迪迪蝦來了！比亞迪全車智能體正式落地

唐長老KAI 2026-05-31 04:49:45
0 跟貼 0
房主將自家住宅變“網約房” 鄰居有權說“不”嗎？

北青網-北京青年報 2026-05-30 21:06:09
5871 跟貼 5871
面對SDV新趨勢，博為峰車載測試以深度課程與實訓回應產業期待

周口融媒 2026-05-29 15:42:15
0 跟貼 0
面試官：說一下 Agent 的常見范式

新浪財經 2026-05-31 10:41:28
0 跟貼 0
院長等3人學術造假南開大學通報

界面新聞 2026-05-30 19:49:22
5843 跟貼 5843
藏在《星際航行者》代碼里的秘密：第六次重啟，神秘條件觸發

字節漫游指南 2026-05-31 03:38:30
0 跟貼 0
財務部搞AI，先別造超人，雇個項目經理

我是一個養蝦人 2026-05-31 00:41:51
0 跟貼 0
大變局！智能體可以直接炒股了，美國知名券商宣布支持AI代理炒股

每日經濟新聞 2026-05-28 23:21:27
0 跟貼 0
把對象當代碼測，感情遲早崩

晚風也遺憾 2026-05-31 00:47:37
0 跟貼 0
20美元內兩個被忽視的必備工具

報錯免疫體 2026-05-31 01:06:09
0 跟貼 0
AI自己寫代碼，訓出1B端側「小鋼炮」-1

機器之心Pro 2026-05-26 14:32:09
0 跟貼 0
智能體從「單兵作戰」到「精銳團隊」 -2

機器之心Pro 2026-04-28 16:56:00
0 跟貼 0
龍蝦軍團有了最強「視力」！一眼看圖直接寫代碼-1

機器之心Pro 2026-04-02 16:56:32
0 跟貼 0
百度希望外界看到的，是各種能干活的智能體，在拉動業績猛漲

時代周報 2026-05-28 23:23:03
0 跟貼 0
深夜刷到別人的人生贏家動態，你焦慮了？

晚風也遺憾 2026-05-31 01:29:15
0 跟貼 0
媒體：香會變調美國在臺海問題上收聲

環球網資訊 2026-05-30 20:40:20
48 跟貼 48
生物學變天：小扎的新開源模型，徹底掀翻谷歌AlphaFold王座！

新智元 2026-05-29 15:43:36
13 跟貼 13
10.68萬喜提L4同源算法，埃安N60駕駛輔助碾壓同級！

車市紅點 2026-05-28 17:43:38
1 跟貼 1
Anthropic CEO：如果我是25歲，不會選編程，會選

機器之心Pro 2026-04-18 12:00:00
0 跟貼 0
Claude Opus 4.8問世，Anthropic估值暴漲至9650億美元

機器之心Pro 2026-05-29 10:08:34
0 跟貼 0
"香會"現場！他們排隊與中方代表打招呼

看看新聞Knews 2026-05-31 01:05:40
85 跟貼 85

打不得也放不得！越南在南海大肆填海造島，中方究竟在顧慮什么？

打不得也放不得！越南在南海大肆填海造島，中方究竟在顧慮什么？

領悟看世界

2026-05-25 01:15:23

重磅！利物浦官宣47歲斯洛特下課：投入5億僅排第5 創2大恥辱紀錄

重磅！利物浦官宣47歲斯洛特下課：投入5億僅排第5 創2大恥辱紀錄

風過鄉

2026-05-30 19:33:04

一汽官宣：獨立新能源汽車品牌，正式發布！

一汽官宣：獨立新能源汽車品牌，正式發布！

新浪財經

2026-05-31 00:54:41

鐵了心要滅掉中國？一股可怕力量來了！

鐵了心要滅掉中國？一股可怕力量來了！

回京歷史夢

2026-05-29 18:33:48

南開大學通報論文數據存疑問題情況

南開大學通報論文數據存疑問題情況

新京報

2026-05-30 19:57:05

從1-2至3-2！北京國安絕境大逆轉，法比奧創紀錄，重慶3分鐘丟2球

從1-2至3-2！北京國安絕境大逆轉，法比奧創紀錄，重慶3分鐘丟2球

汪星人喲

2026-05-30 22:02:12

103-111！雷霆搶七惜敗，最大罪人揪出，葬送好局，無可爭議

103-111！雷霆搶七惜敗，最大罪人揪出，葬送好局，無可爭議

體育見習官

2026-05-31 14:01:23

美警告未落，俄導彈砸基輔F-16基地，普京決戰已至

美警告未落，俄導彈砸基輔F-16基地，普京決戰已至

真的好愛你

2026-05-30 19:05:21

綠營想用牢飯鎖定馬英九？臺商集體倒戈鄭麗文，這才是致命反殺！

綠營想用牢飯鎖定馬英九？臺商集體倒戈鄭麗文，這才是致命反殺！

國際阿嘗

2026-05-29 16:34:35

梭哈字母哥！開拓者豪賭籌碼曝光：楊瀚森等4人+3首輪歸還互換權

梭哈字母哥！開拓者豪賭籌碼曝光：楊瀚森等4人+3首輪歸還互換權

林子說事

2026-05-31 12:17:41

老師膠槍燙幼兒“社會性死亡”！正臉被扒無遮擋，過往曝光是慣犯

老師膠槍燙幼兒“社會性死亡”！正臉被扒無遮擋，過往曝光是慣犯

流云隨風去遠方

2026-05-30 23:58:53

劉洵逝去，“為這個沒名沒姓的年頭干一杯”

劉洵逝去，“為這個沒名沒姓的年頭干一杯”

張佳瑋寫字的地方

2026-05-30 15:54:37

一針見血！詹俊犀利點評戳破阿森納致命短板，大巴黎盡顯冠軍底蘊

一針見血！詹俊犀利點評戳破阿森納致命短板，大巴黎盡顯冠軍底蘊

田先生籃球

2026-05-31 10:39:20

日媒：日本想當東亞“老二”？中方給出了答案，從根兒上就不可能

日媒：日本想當東亞“老二”？中方給出了答案，從根兒上就不可能

春日筆記

2026-05-31 13:38:43

馬斯克22歲“女兒”內衣出鏡，聲稱和父親劃清界限，卻次次捆綁

馬斯克22歲“女兒”內衣出鏡，聲稱和父親劃清界限，卻次次捆綁

譯言

2026-05-31 06:24:46

98歲老僧一句話，點醒了我：你為何不再覺得活著

98歲老僧一句話，點醒了我：你為何不再覺得活著

有態度網友ytd2993

2026-05-28 00:48:53

1958年蕭華上將回鄉，失散23年終見親妹，相見時哽咽說出一句話

1958年蕭華上將回鄉，失散23年終見親妹，相見時哽咽說出一句話

磊子講史

2026-03-06 10:35:20

我供小叔子考上北大，他畢業后只匯款不回家，我去北京一看愣住了

我供小叔子考上北大，他畢業后只匯款不回家，我去北京一看愣住了

千秋文化

2026-05-18 20:02:10

我臟？！誤會一場！文班是被媒體冤枉的??！

柚子說球
2026-05-31 12:29:46

99年我回村葬母無人搭理，只有1戶人家熱心幫忙，15年后我去報恩

99年我回村葬母無人搭理，只有1戶人家熱心幫忙，15年后我去報恩

千秋文化

2025-09-05 11:30:00

AI產業主平臺領航智能+時代

15349文章數 66894關注度

往期回顧全部

科技要聞

戴爾諾基亞又回來了！AI重估老牌科技公司

頭條要聞

男子懷疑妻子出軌在車上裝定位:兄弟不給我借錢給她借

頭條要聞

男子懷疑妻子出軌在車上裝定位:兄弟不給我借錢給她借

體育要聞

阿森納用最悲壯的方式，成就了巴黎王朝

娛樂要聞

賈玲最新動作！侯明昊給虞書欣抬轎！

財經要聞

醫學首席轉崗搞科技，A股科技股遭遇巨震

汽車要聞

900V+3.2秒破百領克10+&領克10上市16.99萬元起

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

家居

教育

手機

本地

藝術

家居要聞

云棲舒展如流云

蜂鳥餐椅線面交錯
古老而持久石影扶手椅
生與命相依舊公寓改造

教育要聞

四年級簡便運算的易錯題：掌握方法很easy

手機要聞

微軟宣布下周攜手英偉達開啟PC新時代；蘋果iPhone 18機模曝光

本地新聞

用剪紙的方式，打開江蘇揚州

藝術要聞

Luis Alvarez Roure | 美國現實主義畫家

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版