同一道編程題,AI交出了完美答案。但它的能力是“解決問題”,還是“背下了答案”?AI初創(chuàng)公司Datacurve的研究人員發(fā)現(xiàn),現(xiàn)有主流測試基準(zhǔn)正面臨嚴(yán)重的“泄題”危機(jī)——模型的高分表現(xiàn),可能只是因?yàn)樗娺^考題。
Datacurve團(tuán)隊(duì)指出,多數(shù)編程基準(zhǔn)測試的任務(wù)源自GitHub上公開的問題和拉取請求。這意味著,這些內(nèi)容很可能早已進(jìn)入AI模型的訓(xùn)練數(shù)據(jù)庫。OpenAI的調(diào)查印證了這一擔(dān)憂:最先進(jìn)的模型甚至能直接復(fù)現(xiàn)基準(zhǔn)測試中的問題描述和修正代碼。OpenAI因此提出,基準(zhǔn)性能的提升未必反映模型真正的進(jìn)步,而可能只是衡量了“訓(xùn)練時(shí)對基準(zhǔn)的參考程度”。AI代理開發(fā)公司Poolside也觀察到類似現(xiàn)象,直言現(xiàn)有編程AI在測試中存在“作弊”行為。
![]()
面對這一信任危機(jī),Datacurve推出了全新的測試框架DeepSWE,試圖將評估拉回正軌。它的設(shè)計(jì)邏輯并非堆砌難題,而是從根本上切斷了模型依賴記憶的可能。具體而言,DeepSWE從四個(gè)維度重構(gòu)了測試方法。
![]()
第一,改變指令風(fēng)格。DeepSWE給出的提示模仿開發(fā)者與AI代理的實(shí)際交互習(xí)慣,簡短且聚焦于行為,而非冗長的技術(shù)說明。提示中不包含大規(guī)模的接口定義模塊,迫使AI必須自己判斷“在哪里改”“如何改”。這樣一來,測試評估的不僅是明確指定的工程作業(yè),更涵蓋了端到端的探索性能。第二,大幅擴(kuò)展覆蓋范圍。DeepSWE匯集了111個(gè)任務(wù),覆蓋91個(gè)活躍的開源倉庫及TypeScript、Go、Python、JavaScript、Rust五種語言。對比之下,SWE-Bench Pro Public僅包含11個(gè)倉庫,SWE-Bench Verified為12個(gè),且多集中于知名高頻維護(hù)項(xiàng)目。Datacurve認(rèn)為,更廣泛的采樣能更有效反映編程代理在不同結(jié)構(gòu)、文檔和維護(hù)水平的代碼庫中執(zhí)行實(shí)用修改的能力。
第三,也是最為關(guān)鍵的一步:任務(wù)全部為原創(chuàng)。DeepSWE的解答方案不是復(fù)制或改寫現(xiàn)有的拉取請求、提交記錄或公開補(bǔ)丁,而是從零開始構(gòu)建。即便某些任務(wù)靈感來自未解決的GitHub問題,其具體修復(fù)內(nèi)容也是全新的。更徹底的是,這些任務(wù)不會(huì)被合并回上游倉庫,從而避免出現(xiàn)在GitHub公開記錄中,未來也不太可能進(jìn)入預(yù)訓(xùn)練語料庫。Datacurve強(qiáng)調(diào),這確保了測試檢驗(yàn)的是AI代理解決新問題的能力,而非回憶或檢索已知答案。第四,大幅優(yōu)化了驗(yàn)證工具。測試發(fā)現(xiàn),SWE-Bench Pro的驗(yàn)證器存在8.5%的假陽性率(接受錯(cuò)誤實(shí)現(xiàn))和24%的假陰性率(拒絕正確實(shí)現(xiàn))。DeepSWE則將這兩項(xiàng)指標(biāo)分別壓縮至0.3%和1.1%,讓評分誤差顯著收窄。
![]()
換用DeepSWE之后,模型們的成績單顯得參差。GPT-5.5以70%的得分位居榜首,GPT-5.4拿到56%,Claude Opus 4.7為54%。緊隨其后的是Claude Sonnet 4.6的32%,以及Gemini 3.5 Flash的28%。當(dāng)記憶的捷徑被堵住,測試數(shù)據(jù)的落差開始更多揭示出模型在陌生代碼環(huán)境中真實(shí)的推理與適應(yīng)邊界。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.