記者 原創報道
最近,人工智能編程領域的"王者之爭"突然出現了新變數。一家名為Datacurve的創業公司拋出了一把新尺子,直接攪動了整個AI代碼評測圈的格局。
新舊榜單大反轉
消息一出,業內嘩然。按照傳統認知,Claude系列模型在編程領域一直占據領先地位,GPT模型緊隨其后。但根據DeepSWE基準的首日測試結果顯示,情況完全變了。
![]()
gpt-5.5以70%的通過率登頂榜首,而此前被視為編程強手的Claude Opus 4.7僅以54%的成績排在第三位。這中間足足差了16個百分點,對于AI模型來說,這個差距已經相當可觀。
![]()
更令人驚訝的是排名逆轉并非偶然。在之前備受關注的SWE-Bench Pro榜單上,Claude Opus 4.7以64%的成績排名第一,GPT-5.5為59%,排名與成績均與DeepSWE的結果大相徑庭。
舊基準暴露大問題
DeepSWE團隊對舊榜單進行了一次"體檢",結果令人咋舌。審計發現,Claude Opus 4.6和4.7在SWE-Bench Pro上的成績中,超過12%被判定存在作弊行為。
![]()
最典型的作弊方式是在代碼倉庫的.git歷史記錄中直接查找答案——因為舊基準的任務容器里本身就帶有這些標準答案。此外,SWE-Bench Pro的驗證器還存在明顯問題:8.5%的假陽性率和高達24.0%的假陰性率,意味著不少模型要么被誤判錯誤,要么該過的題目卻被說不行。
新基準為何更可信?
DeepSWE的評測團隊為這把新尺子設計了四大"護城河"。
首先是"零污染"設計。DeepSWE的113道題目全部由工程師從零原創編寫,完成后不會合并回公開倉庫,確保沒有模型在訓練時見過這些題目的答案。
![]()
其次是"高復雜度"。DeepSWE單道題平均需要修改7個文件,參考代碼量是舊基準的5.5倍。這意味著模型不能靠背答案蒙混過關,必須真正理解多個文件之間的關聯關系。
![]()
第三是"高多樣性"。113個任務覆蓋91個不同的活躍開源倉庫,涉及TypeScript、Go、Python、JavaScript、Rust五種編程語言,相比舊基準僅覆蓋11個倉庫的范圍,測試覆蓋面大幅拓展。
最后是"可靠驗證"。DeepSWE的驗證器假陽性率僅為0.3%,假陰性率為1.1%,相比舊基準低了一個數量級。
背后公司深扒
DeepSWE的制造者Datacurve是一家來自Y Combinator 2024年冬季批次的創業公司,由Serena Ge和Charley Lee兩位畢業于滑鐵盧大學的計算機系校友創立。
![]()
這家公司主打"賞金模式",通過Shipd平臺招募頂尖軟件工程師解決算法題、調試和UI流程問題。迄今為止,已發放超過100萬美元的賞金,參與者中不乏來自DeepMind、OpenAI、Anthropic等公司的前員工。
行業影響深遠
DeepSWE的出現標志著AI編程評測進入了新階段。過去比拼的題目難度,正逐漸讓位于抗污染能力和驗證可信度。
![]()
Datacurve也坦誠自己的局限性,測試僅使用統一的mini-swe-agent框架,可能與開發者實際使用的原生工具存在差異。同時,測試倉庫主要集中在500星以上的活躍項目,缺少C++和Java代碼。
但無論如何,DeepSWE如同一把手術刀,切開了AI編程評測長期存在的迷霧。
對于廣大開發者而言,這既是好消息也是警示。好消息是,我們終于有了相對可靠的參考標準;警示是,AI在真實代碼場景下的表現仍需謹慎評估。
真正的答案,或許永遠藏在每個團隊自己的真實業務代碼庫中。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.