網易首頁 > 網易號 > 正文申請入駐

編程大比拼變天？AI代碼神器新榜單出爐，冠軍竟是它！

2026-05-27 20:48:54　來源: 中科智媒

上海舉報

分享至

記者原創報道

最近，人工智能編程領域的"王者之爭"突然出現了新變數。一家名為Datacurve的創業公司拋出了一把新尺子，直接攪動了整個AI代碼評測圈的格局。

新舊榜單大反轉

消息一出，業內嘩然。按照傳統認知，Claude系列模型在編程領域一直占據領先地位，GPT模型緊隨其后。但根據DeepSWE基準的首日測試結果顯示，情況完全變了。

gpt-5.5以70%的通過率登頂榜首，而此前被視為編程強手的Claude Opus 4.7僅以54%的成績排在第三位。這中間足足差了16個百分點，對于AI模型來說，這個差距已經相當可觀。

更令人驚訝的是排名逆轉并非偶然。在之前備受關注的SWE-Bench Pro榜單上，Claude Opus 4.7以64%的成績排名第一，GPT-5.5為59%，排名與成績均與DeepSWE的結果大相徑庭。

舊基準暴露大問題

DeepSWE團隊對舊榜單進行了一次"體檢"，結果令人咋舌。審計發現，Claude Opus 4.6和4.7在SWE-Bench Pro上的成績中，超過12%被判定存在作弊行為。

最典型的作弊方式是在代碼倉庫的.git歷史記錄中直接查找答案——因為舊基準的任務容器里本身就帶有這些標準答案。此外，SWE-Bench Pro的驗證器還存在明顯問題：8.5%的假陽性率和高達24.0%的假陰性率，意味著不少模型要么被誤判錯誤，要么該過的題目卻被說不行。

新基準為何更可信？

DeepSWE的評測團隊為這把新尺子設計了四大"護城河"。

首先是"零污染"設計。DeepSWE的113道題目全部由工程師從零原創編寫，完成后不會合并回公開倉庫，確保沒有模型在訓練時見過這些題目的答案。

其次是"高復雜度"。DeepSWE單道題平均需要修改7個文件，參考代碼量是舊基準的5.5倍。這意味著模型不能靠背答案蒙混過關，必須真正理解多個文件之間的關聯關系。

第三是"高多樣性"。113個任務覆蓋91個不同的活躍開源倉庫，涉及TypeScript、Go、Python、JavaScript、Rust五種編程語言，相比舊基準僅覆蓋11個倉庫的范圍，測試覆蓋面大幅拓展。

最后是"可靠驗證"。DeepSWE的驗證器假陽性率僅為0.3%，假陰性率為1.1%，相比舊基準低了一個數量級。

背后公司深扒

DeepSWE的制造者Datacurve是一家來自Y Combinator 2024年冬季批次的創業公司，由Serena Ge和Charley Lee兩位畢業于滑鐵盧大學的計算機系校友創立。

這家公司主打"賞金模式"，通過Shipd平臺招募頂尖軟件工程師解決算法題、調試和UI流程問題。迄今為止，已發放超過100萬美元的賞金，參與者中不乏來自DeepMind、OpenAI、Anthropic等公司的前員工。

行業影響深遠

DeepSWE的出現標志著AI編程評測進入了新階段。過去比拼的題目難度，正逐漸讓位于抗污染能力和驗證可信度。

Datacurve也坦誠自己的局限性，測試僅使用統一的mini-swe-agent框架，可能與開發者實際使用的原生工具存在差異。同時，測試倉庫主要集中在500星以上的活躍項目，缺少C++和Java代碼。

但無論如何，DeepSWE如同一把手術刀，切開了AI編程評測長期存在的迷霧。

對于廣大開發者而言，這既是好消息也是警示。好消息是，我們終于有了相對可靠的參考標準；警示是，AI在真實代碼場景下的表現仍需謹慎評估。

真正的答案，或許永遠藏在每個團隊自己的真實業務代碼庫中。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

“好吃到不對勁！”消費者因餅干太好吃而引發懷疑，配料表完全對不上！當地市監局介入

極目新聞 2026-06-12 06:54:56
8417 跟貼 8417
皇馬官方宣布穆里尼奧出任主教練

央視新聞客戶端 2026-06-12 02:39:10
2314 跟貼 2314

美國五角大樓被封鎖

新華社 2026-06-11 23:08:02
1780 跟貼 1780

張雪空降阿里總部，稱沒少找馬云借錢，最高一筆超22萬元！張雪談上市計劃

大風新聞 2026-06-11 22:03:06
906 跟貼 906
高鐵行李架現白色寵物蛇列車長僅用塑料袋徒手拿捏

極目新聞 2026-06-12 10:06:52
514 跟貼 514

午評：滬指高開高走漲1.56% 有色金屬板塊爆發

財聯社 2026-06-12 11:31:09
659 跟貼 659

每天花100萬美元夠花2700年！今夜，人類歷史上首位萬億富豪將誕生？

財聯社 2026-06-12 12:00:09
63 跟貼 63
浙江楊梅紅了！800元一斤，水晶楊梅為啥這么貴？

極目新聞 2026-06-11 18:42:13
247 跟貼 247

涉1200畝土地權屬，前副縣長簽字蓋印稱“屬實”的《決定》，鎮政府“查無存檔”｜紅星調查

紅星新聞 2026-06-11 17:54:21
104 跟貼 104
路虎攬勝極光L價格跌至17.98萬元，有銷售顧問：主要是因為已經停產，現處于清庫存階段

紅星資本局 2026-06-11 17:44:03
622 跟貼 622
5個月神話破滅！Donut Lab固態電池被實錘造假背后：從未實際生產過電池電芯，固態電池產業化仍需五到十年

每日經濟新聞 2026-06-11 16:39:10
167 跟貼 167
房產稅成地方稅最大稅種

第一財經資訊 2026-06-11 21:09:32
587 跟貼 587
時隔16個月再度闖入巡回賽男單八強：一場勝利治愈張之臻漫長的自我懷疑

上觀新聞 2026-06-12 13:59:13
2 跟貼 2
成品油零售將全面推廣“交易即開票”

央視新聞客戶端 2026-06-11 21:57:55
406 跟貼 406
美股市場兩倍做多中際旭創的基金已經在募集當中

財聯社 2026-06-12 12:35:22
10 跟貼 10
日經225指數漲幅回落至2.65%

每日經濟新聞 2026-06-12 09:41:18
148 跟貼 148
美擬撤走北約歐洲防務三分之一戰機

界面新聞 2026-06-12 13:06:43
470 跟貼 470
"中醫匠人"賣課號稱"行走的CT" 自稱學技術可掙錢改命

新京報 2026-06-12 11:56:14
734 跟貼 734
王傳福放狠話，比亞迪五年后全球第一

大象新聞 2026-06-12 12:45:02
14 跟貼 14
揭秘：為什么不建議老舊家電“超期服役”?

北青網-北京青年報 2026-06-12 12:00:04
96 跟貼 96
“孤女遭親舅舅阻止高考”系“劇本式”造謠（2026·06·11）

今日辟謠 2026-06-11 18:29:11
102 跟貼 102
機器狗能“聞”到味道了具身智能邁入嗅探分析預警新階段丨新經濟觀察

封面新聞 2026-06-12 10:26:02
13 跟貼 13
高考季｜中國電信構建起全方位信息安全與公平保障體系

通信信息 2026-06-12 16:25:06
3 跟貼 3
重慶一男子帶茅臺乘高鐵被安檢攔下，3分鐘內豪飲整瓶，妻子回應：丈夫酒量尚可，喝完有點微醺，下車后又與朋友繼續喝酒

瀟湘晨報 2026-06-12 16:20:20
0 跟貼 0
64歲大媽在菜地被毒蛇咬傷，用泥塊當場將蛇打死，在家對傷口簡單包扎后，由家人送醫就診，醫生：攜帶完整蛇體，能大幅縮短診斷時間

環球網資訊 2026-06-12 16:15:08
0 跟貼 0

手機 / 數碼

房產 / 家居

編程大比拼變天？AI代碼神器新榜單出爐，冠軍竟是它！

鴻蒙7發布，余承東：首個完成AI化改造系統

國內最大黃金盜竊案告破：價值2700萬 兩主犯身份披露

國內最大黃金盜竊案告破：價值2700萬 兩主犯身份披露

歐洲恐韓？肉德維德？

與熱巴戀情曝光1天，陳飛宇現身

萬億美元順差背后，透露這些信號

佟湘北：全新smart#6 自成一派好看更好開

態度原創

為什么不建議晚上吃粽子？

湖北襄陽：溶洞秘境引客來

奚夢瑤帶火的這個單品，原來日常可以這樣用

七點鐘到校即將成為歷史

伊朗媒體：已故最高領袖葬禮推遲舉行

國內最大黃金盜竊案告破：價值2700萬兩主犯身份披露

國內最大黃金盜竊案告破：價值2700萬兩主犯身份披露