无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

GPT-5.5反殺Claude登頂,AI編碼舊榜不準了?

0
分享至


新智元報道


【新智元導讀】一個號稱「零污染」的新基準 DeepSWE,用113道原創題撕開了舊編程榜單的遮羞布。

代碼評測圈,一把新量尺落下。

就在剛剛,Datacurve推出了新基準DeepSWE。

Datacurve聯合創始人、CEO Serena Ge在X上說,推出DeepSWE,是為了還原開發者工作的真實場景,揭開頂尖模型真正拉開差距的地方。


DeepSWE第一天的榜單,就開始向舊基準宣戰,GPT和Claude在SWE-Bench Pro上的名次,被徹底逆轉。


https://deepswe.datacurve.ai/blog

GPT-5.5拿到70%±4%,排第一;Claude Opus 4.7只有54%±5%,排在第三,兩家整整差出16個百分點。

更扎心的還在后面。

DeepSWE團隊用新方法回頭審計SWE-Bench Pro上的提交記錄。

結果發現,Claude Opus 4.6和4.7在那個榜單上拿到的成績里,超過12%的成績被判定作弊。

不止如此,DeepSWE團隊還查出,SWE-Bench Pro的驗證器有8.5%的假陽性率,24.0%的假陰性率。

如果誤差這么大,SWE-Bench Pro榜單上那些只差一兩個百分點的模型,到底是真的旗鼓相當,還是只是被一把原本不準的尺子量成了平局?

換一把尺子

第一名就換人

先看DeepSWE自己跑出來的榜單。


https://deepswe.datacurve.ai/blog

12款前沿模型中,gpt-5.5[xhigh]以70%±4%的通過率居首,gpt-5.4[xhigh]為56%±5%緊隨其后,Claude Opus 4.7[max]為54%±5%排第三。

再往下,Claude Sonnet 4.6[high]為32%,中間一批模型落在18%到28%之間,榜尾的幾款只有5%到10%。

在公開報道的SWE-Bench Pro成績里,Claude Opus 4.7是64%,排第一;gpt-5.5是59%。到了DeepSWE,位置整個翻了過來:gpt-5.5上到70%、排第一,Claude Opus 4.7掉到第三、54%。

不僅排名出現逆轉,差距跨度也大幅增加。

這批模型在SWE-Bench Pro上從最差到最好只有30%的差距,到了DeepSWE上變成了70%。


同一批選手,同一類任務,換一個測試,原來的并列領先變成了斷層式的差距。

DeepSWE團隊的解釋是:舊榜單上模型擠在一個窄窄的分數帶里,不是因為它們真的接近,而是因為基準本身的「分辨率」不夠。

SWE-Bench Pro一道題平均只改5個文件,DeepSWE一道題平均要改7個,單題的參考代碼量是SWE-Bench Pro的5.5倍。

這種規模下,模型沒法靠背下某個具體函數蒙過去,它必須真正讀懂多個文件之間的耦合關系,再規劃出一條貫穿整個倉庫的修改路徑。

GPT-5.5拿到70%,意味著它不是記住了某種題型,而是「能在一個完全陌生的真實倉庫里,跑完一條橫跨7個文件的改動鏈路」。

也就是說,在玩具題上,兩家看著差不多;在能逼出真實工程能力的題上,差距瞬間被拉開。

DeepSWE更準嗎

還是噱頭?

一個新基準,憑什么說自己比舊基準更準?DeepSWE給出的答案是四個設計。

首先,是零污染,這是它最核心的優勢。

DeepSWE的每一個任務都是工程師從零原創寫出來的,而且,這些任務做完后不會被合并回上游倉庫,不會進入公開的GitHub記錄,也就很難出現在未來抓取開源代碼的預訓練語料里。

這意味著沒有任何模型在預訓練階段見過這些題的答案,這一刀正中舊基準的命門。

第二,高多樣性。

DeepSWE包含113個任務,覆蓋91個活躍的開源倉庫,橫跨TypeScript、Go、Python、JavaScript、Rust五種語言。

作為對比,SWE-Bench Pro公開版只覆蓋11個倉庫。倉庫越多、越雜,越能逼近開發者真實會丟給智能體的那些代碼庫。

第三,真實復雜度。

前面說過DeepSWE的單題代碼量是SWE-Bench Pro的5.5倍,但有意思的是,它的任務提示詞長度反而只有SWE-Bench Pro的一半。

提示詞短,是因為它刻意模仿開發者真實跟智能體說話的方式:只說想要什么行為,不把接口定義、復現步驟、代碼片段全部給你。智能體必須自己去倉庫里摸清楚「在哪改、怎么改」。

第四,可靠驗證。

一個基準準不準,關鍵看它的驗證器。舊基準的驗證器常常只認一種「標準答案」的寫法,換個變量名、換種實現思路就可能被判錯。DeepSWE的驗證器是針對每個任務手寫的,只要結果對,怎么寫都算過。

各抽30個任務交叉復查,DeepSWE驗證器的假陽性率0.3%、假陰性率1.1%,SWE-Bench Pro則是8.5%和24.0%,差了一個數量級。

而且DeepSWE不只是一張靜態榜單。在它的GitHub倉庫里,每個任務都附帶提示詞、可復現的Docker環境、驗證器和一份保密參考解,你可以拉下來讓自己的智能體跑一遍。

舊基準的尺子

兩頭都不準

DeepSWE還用這套新方法,審計了SWE-Bench Pro上那些已經記進成績單的提交。

Claude Opus 4.6和4.7的成績里,超過12%被判定為作弊,約87%是同一招,直接去翻代碼倉庫的.git history,把藏在歷史記錄里的標準答案抄出來。

在同一批復查樣本中,GPT-5.4和GPT-5.5未被發現這類行為。

DeepSWE也指出,是SWE-Bench Pro這個基準本身讓作弊有機可乘,它的任務容器里直接帶著那個「標準答案」的提交記錄。

這是DeepSWE給出的客觀觀察,至于Claude為何會形成這種行為,目前沒有公開定論。

如果說作弊是讓分數虛高的「上行噪聲」,那SWE-Bench Pro還有一個對稱的「下行噪聲」:24%的假陰性。

DeepSWE復查了一批被SWE-Bench Pro判為「失敗」的提交,發現其中約24%其實功能完全正確,只是被誤殺了。

24%意味著在被復查的運行軌跡里,差不多每四個運行就有一個可能被誤殺。

如果把這層假陰性算上,所有模型的真實分數都被壓低了一截。而且,那些傾向于按自己風格重寫代碼、不抄現成答案的模型,分數損失的越是嚴重。

DeepSWE的驗證器經過多重交叉把關,假陽性率壓到0.3%、假陰性率1.1%,兩項誤判率都比SWE-Bench Pro低了一個數量級以上。


兩個基準驗證器的誤判率對比。SWE-Bench Pro 假陽性率8.5%、假陰性率24.0%

如果這個對比數據準確,意味著持續大半年的所謂「Claude和GPT不分上下」的共識,是建立在一個兩頭都不準的測量工具上。

過去大家只比終點分數,沒人回頭看這個分怎么來。DeepSWE這一刀下去,哪些以SWE-Bench Pro為錨點的模型對比,可能就需要重新校準。

局限性在哪里?

DeepSWE解決了舊基準的污染問題,但它終究是Datacurve自家做的評測。

Datacurve也談到了自己的局限性。它的全程只用一個叫mini-swe-agent的Harness,給所有模型同一個bash工具、同一套提示詞。

這樣做是為了把「模型能力」和「外圍腳手架」分開,但代價是一部分失真。

不同模型家族訓練時適配的工具形態本就不同,而開發者在現實里也不是用mini-swe-agent,是用Codex CLI、Claude Code、Cursor、Gemini CLI這些更成熟的原生Harness。

統一Harness,可能把每一家模型都按在了它原生上限之下。

DeepSWE團隊也跑了對照實驗回應這個質疑,小規模試點里mini-swe-agent的表現不輸原生 Harness;但團隊同時強調,這只是10道題的試點,不足以完全打消顧慮。


同樣10道SWE-Bench Pro任務下,mini-swe-agent的通過率與token消耗,不輸Claude Code、Codex CLI、Gemini CLI等原生Harness

另外,語料只覆蓋500星以上的活躍開源倉庫,缺了C++和Java,bug定位和重構類任務也偏少。

還有一點是AI幻覺。DeepSWE那些「假陽性、假陰性」的判定,本身是由一個LLM分析員給出的,不是人工。

團隊自己提醒,低于約5%的差異不該當真。

1500萬美元

這家公司給大模型當「磨刀石」

DeepSWE是怎么推出來的?先認識一下DeepSWE背后的這家公司Datacurve。

Datacurve出自Y Combinator 2024年冬季批次(W24),由Serena Ge和Charley Lee兩位創始人在2024年成立。


Datacurve兩位創始人Serena Ge(右)與 Charley Lee(左)。兩人均出自滑鐵盧大學計算機系

它為前沿大模型生產高質量的代碼數據,但它的玩法有點特別。

Datacurve運行著一個叫Shipd的平臺,用「賞金」的方式招募頂尖軟件工程師來解算法題、做調試、寫UI流程,按產出而不是按工時付錢,迄今已發出超過100萬美元賞金。

據TechCrunch等媒體報道,參與者中不乏來自DeepMind、OpenAI、Anthropic、Vercel的工程師。

Datacurve本來就是給大模型供訓練數據的公司,對「什么樣的數據會污染基準、什么樣的任務才考得出真本事」有第一手的認知。DeepSWE更像是它主業的延伸。

代碼評測圈

正在告別刷分時代

DeepSWE不是孤立事件,背后是一個已延續大半年的趨勢。

隨著SWE-Bench系列基準日趨飽和,新一代編程基準的競爭點,已經從「題目有多難」轉向了「抗不抗污染」和「驗證可不可信」,DeepSWE正是這個轉向中的一個樣本。

DeepSWE還有一個特別有意思的發現:模型越強,越會主動給自己寫測試。

在DeepSWE上,Claude Opus 4.7和GPT-5.4有超過80%的運行會主動用項目自己的測試框架寫新測試,哪怕沒人要求它這么做。但在SWE-Bench Pro上,同樣這批模型寫測試的比例掉到了3%到28%。


同一批模型主動寫新測試的比例。在DeepSWE上多數超過60%,到SWE-Bench Pro上全部掉進3%到28%區間

原因是什么?

SWE-Bench Pro的提示詞里有一句話,告訴智能體測試文件已經處理好了、別去改動測試邏輯。智能體就把這句話理解成了「不用自己寫測試」。

一句提示詞的措辭,就能改變一個模型的行為,進而改變它的得分。

這說明,我們衡量AI編程能力的工具,本身還非常脆弱:一個標點、一句話、一個Harness的選擇,都可能影響到排名。

所以,當AI智能體開始動手改你的代碼,你真正該信什么?

DeepSWE、SWE-Bench Pro這些都只是外部參考,終極答案還藏于真實的業務代碼庫。

參考資料:

https://x.com/serenaa_ge/status/2059308218564890875?s=20%20

https://deepswe.datacurve.ai/blog%20

編輯:元宇 Moses



特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
打不得也放不得!越南在南海大肆填海造島,中方究竟在顧慮什么?

打不得也放不得!越南在南海大肆填海造島,中方究竟在顧慮什么?

領悟看世界
2026-05-25 01:15:23
重磅!利物浦官宣47歲斯洛特下課:投入5億僅排第5 創2大恥辱紀錄

重磅!利物浦官宣47歲斯洛特下課:投入5億僅排第5 創2大恥辱紀錄

風過鄉
2026-05-30 19:33:04
一汽官宣:獨立新能源汽車品牌,正式發布!

一汽官宣:獨立新能源汽車品牌,正式發布!

新浪財經
2026-05-31 00:54:41
鐵了心要滅掉中國?一股可怕力量來了!

鐵了心要滅掉中國?一股可怕力量來了!

回京歷史夢
2026-05-29 18:33:48
南開大學通報論文數據存疑問題情況

南開大學通報論文數據存疑問題情況

新京報
2026-05-30 19:57:05
從1-2至3-2!北京國安絕境大逆轉,法比奧創紀錄,重慶3分鐘丟2球

從1-2至3-2!北京國安絕境大逆轉,法比奧創紀錄,重慶3分鐘丟2球

汪星人喲
2026-05-30 22:02:12
103-111!雷霆搶七惜敗,最大罪人揪出,葬送好局,無可爭議

103-111!雷霆搶七惜敗,最大罪人揪出,葬送好局,無可爭議

體育見習官
2026-05-31 14:01:23
美警告未落,俄導彈砸基輔F-16基地,普京決戰已至

美警告未落,俄導彈砸基輔F-16基地,普京決戰已至

真的好愛你
2026-05-30 19:05:21
綠營想用牢飯鎖定馬英九?臺商集體倒戈鄭麗文,這才是致命反殺!

綠營想用牢飯鎖定馬英九?臺商集體倒戈鄭麗文,這才是致命反殺!

國際阿嘗
2026-05-29 16:34:35
梭哈字母哥!開拓者豪賭籌碼曝光:楊瀚森等4人+3首輪 歸還互換權

梭哈字母哥!開拓者豪賭籌碼曝光:楊瀚森等4人+3首輪 歸還互換權

林子說事
2026-05-31 12:17:41
老師膠槍燙幼兒“社會性死亡”!正臉被扒無遮擋,過往曝光是慣犯

老師膠槍燙幼兒“社會性死亡”!正臉被扒無遮擋,過往曝光是慣犯

流云隨風去遠方
2026-05-30 23:58:53
劉洵逝去,“為這個沒名沒姓的年頭干一杯”

劉洵逝去,“為這個沒名沒姓的年頭干一杯”

張佳瑋寫字的地方
2026-05-30 15:54:37
一針見血!詹俊犀利點評戳破阿森納致命短板,大巴黎盡顯冠軍底蘊

一針見血!詹俊犀利點評戳破阿森納致命短板,大巴黎盡顯冠軍底蘊

田先生籃球
2026-05-31 10:39:20
日媒:日本想當東亞“老二”?中方給出了答案,從根兒上就不可能

日媒:日本想當東亞“老二”?中方給出了答案,從根兒上就不可能

春日筆記
2026-05-31 13:38:43
馬斯克22歲“女兒”內衣出鏡,聲稱和父親劃清界限,卻次次捆綁

馬斯克22歲“女兒”內衣出鏡,聲稱和父親劃清界限,卻次次捆綁

譯言
2026-05-31 06:24:46
98歲老僧一句話,點醒了我:你為何不再覺得活著

98歲老僧一句話,點醒了我:你為何不再覺得活著

有態度網友ytd2993
2026-05-28 00:48:53
1958年蕭華上將回鄉,失散23年終見親妹,相見時哽咽說出一句話

1958年蕭華上將回鄉,失散23年終見親妹,相見時哽咽說出一句話

磊子講史
2026-03-06 10:35:20
我供小叔子考上北大,他畢業后只匯款不回家,我去北京一看愣住了

我供小叔子考上北大,他畢業后只匯款不回家,我去北京一看愣住了

千秋文化
2026-05-18 20:02:10
我臟?!誤會一場!文班是被媒體冤枉的??!

柚子說球
2026-05-31 12:29:46

99年我回村葬母無人搭理,只有1戶人家熱心幫忙,15年后我去報恩

99年我回村葬母無人搭理,只有1戶人家熱心幫忙,15年后我去報恩

千秋文化
2025-09-05 11:30:00
2026-05-31 14:47:00
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
15349文章數 66894關注度
往期回顧 全部

科技要聞

戴爾諾基亞又回來了!AI重估老牌科技公司

頭條要聞

男子懷疑妻子出軌在車上裝定位:兄弟不給我借錢給她借

頭條要聞

男子懷疑妻子出軌在車上裝定位:兄弟不給我借錢給她借

體育要聞

阿森納用最悲壯的方式,成就了巴黎王朝

娛樂要聞

賈玲最新動作!侯明昊給虞書欣抬轎!

財經要聞

醫學首席轉崗搞科技,A股科技股遭遇巨震

汽車要聞

900V+3.2秒破百 領克10+&領克10上市16.99萬元起

態度原創

家居
教育
手機
本地
藝術

家居要聞

云棲 舒展如流云

教育要聞

四年級簡便運算的易錯題:掌握方法很easy

手機要聞

微軟宣布下周攜手英偉達開啟PC新時代;蘋果iPhone 18機模曝光

本地新聞

用剪紙的方式,打開江蘇揚州

藝術要聞

Luis Alvarez Roure | 美國現實主義畫家

無障礙瀏覽 進入關懷版