无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

編程大比拼變天?AI代碼神器新榜單出爐,冠軍竟是它!

0
分享至

記者 原創報道

最近,人工智能編程領域的"王者之爭"突然出現了新變數。一家名為Datacurve的創業公司拋出了一把新尺子,直接攪動了整個AI代碼評測圈的格局。

新舊榜單大反轉

消息一出,業內嘩然。按照傳統認知,Claude系列模型在編程領域一直占據領先地位,GPT模型緊隨其后。但根據DeepSWE基準的首日測試結果顯示,情況完全變了。


gpt-5.5以70%的通過率登頂榜首,而此前被視為編程強手的Claude Opus 4.7僅以54%的成績排在第三位。這中間足足差了16個百分點,對于AI模型來說,這個差距已經相當可觀。


更令人驚訝的是排名逆轉并非偶然。在之前備受關注的SWE-Bench Pro榜單上,Claude Opus 4.7以64%的成績排名第一,GPT-5.5為59%,排名與成績均與DeepSWE的結果大相徑庭。

舊基準暴露大問題

DeepSWE團隊對舊榜單進行了一次"體檢",結果令人咋舌。審計發現,Claude Opus 4.6和4.7在SWE-Bench Pro上的成績中,超過12%被判定存在作弊行為。


最典型的作弊方式是在代碼倉庫的.git歷史記錄中直接查找答案——因為舊基準的任務容器里本身就帶有這些標準答案。此外,SWE-Bench Pro的驗證器還存在明顯問題:8.5%的假陽性率和高達24.0%的假陰性率,意味著不少模型要么被誤判錯誤,要么該過的題目卻被說不行。

新基準為何更可信?

DeepSWE的評測團隊為這把新尺子設計了四大"護城河"。

首先是"零污染"設計。DeepSWE的113道題目全部由工程師從零原創編寫,完成后不會合并回公開倉庫,確保沒有模型在訓練時見過這些題目的答案。


其次是"高復雜度"。DeepSWE單道題平均需要修改7個文件,參考代碼量是舊基準的5.5倍。這意味著模型不能靠背答案蒙混過關,必須真正理解多個文件之間的關聯關系。


第三是"高多樣性"。113個任務覆蓋91個不同的活躍開源倉庫,涉及TypeScript、Go、Python、JavaScript、Rust五種編程語言,相比舊基準僅覆蓋11個倉庫的范圍,測試覆蓋面大幅拓展。

最后是"可靠驗證"。DeepSWE的驗證器假陽性率僅為0.3%,假陰性率為1.1%,相比舊基準低了一個數量級。

背后公司深扒

DeepSWE的制造者Datacurve是一家來自Y Combinator 2024年冬季批次的創業公司,由Serena Ge和Charley Lee兩位畢業于滑鐵盧大學的計算機系校友創立。


這家公司主打"賞金模式",通過Shipd平臺招募頂尖軟件工程師解決算法題、調試和UI流程問題。迄今為止,已發放超過100萬美元的賞金,參與者中不乏來自DeepMind、OpenAI、Anthropic等公司的前員工。

行業影響深遠

DeepSWE的出現標志著AI編程評測進入了新階段。過去比拼的題目難度,正逐漸讓位于抗污染能力和驗證可信度。


Datacurve也坦誠自己的局限性,測試僅使用統一的mini-swe-agent框架,可能與開發者實際使用的原生工具存在差異。同時,測試倉庫主要集中在500星以上的活躍項目,缺少C++和Java代碼。

但無論如何,DeepSWE如同一把手術刀,切開了AI編程評測長期存在的迷霧。

對于廣大開發者而言,這既是好消息也是警示。好消息是,我們終于有了相對可靠的參考標準;警示是,AI在真實代碼場景下的表現仍需謹慎評估。

真正的答案,或許永遠藏在每個團隊自己的真實業務代碼庫中。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
女子外賣備注牛蛙不要燒 結果收到一兜活潑亂跳的牛蛙 商家:以為考驗是預制菜

女子外賣備注牛蛙不要燒 結果收到一兜活潑亂跳的牛蛙 商家:以為考驗是預制菜

中國能源網
2026-06-12 11:09:03
這是一張珍貴的照片多少男人心中的白月光,你認出是誰了嗎?

這是一張珍貴的照片多少男人心中的白月光,你認出是誰了嗎?

動物奇奇怪怪
2026-06-12 14:41:18
A股有色金屬爆發,4000億龍頭百萬手封單漲停

A股有色金屬爆發,4000億龍頭百萬手封單漲停

21世紀經濟報道
2026-06-12 15:46:51
CBA最新消息:洛夫頓完成簽約,廣東隊報價德拉蒙德,張慶鵬離隊

CBA最新消息:洛夫頓完成簽約,廣東隊報價德拉蒙德,張慶鵬離隊

童叔不飆車
2026-06-12 10:55:34
中日男籃決戰,首發五虎將橫空出世!

中日男籃決戰,首發五虎將橫空出世!

小潌拍客在北漂
2026-06-12 09:29:08
英語里最臟的一個詞,平時說話千萬別亂用

英語里最臟的一個詞,平時說話千萬別亂用

beebee
2026-06-11 11:00:27
美財政部以協助伊朗采購軍品為由制裁中方個人和實體,外交部回應

美財政部以協助伊朗采購軍品為由制裁中方個人和實體,外交部回應

環球網資訊
2026-06-12 15:33:06
報復來了!中國緊急踩剎車,特朗普坐鎮白宮戰情室,連夜再砸伊朗

報復來了!中國緊急踩剎車,特朗普坐鎮白宮戰情室,連夜再砸伊朗

霽寒飄雪
2026-06-12 14:23:03
烏媒:中國主力攻擊直升機直-10,竟出自俄羅斯卡-52設計團隊之手

烏媒:中國主力攻擊直升機直-10,竟出自俄羅斯卡-52設計團隊之手

零度Military
2026-06-12 14:36:59
美媒:美國一警察“嬉戲打鬧”用槍口對準同事,遭對方開槍打傷

美媒:美國一警察“嬉戲打鬧”用槍口對準同事,遭對方開槍打傷

環球網資訊
2026-06-12 16:05:53
時機已到!統一臺灣的機會來了。

時機已到!統一臺灣的機會來了。

荊楚寰宇文樞
2026-06-11 23:02:11
事實證明馬杜羅政權垮臺之后,委內瑞拉人確實更有盼頭了

事實證明馬杜羅政權垮臺之后,委內瑞拉人確實更有盼頭了

玲兒愛唱歌
2026-06-04 07:05:24
管中窺豹俄羅斯:寡頭“自愿捐款”、沒收離開俄羅斯的公民財產

管中窺豹俄羅斯:寡頭“自愿捐款”、沒收離開俄羅斯的公民財產

山河路口
2026-06-11 21:58:43
夏天到了,該去健身了!網友一句話帖子引共鳴

夏天到了,該去健身了!網友一句話帖子引共鳴

熱搜摘要官
2026-06-12 01:26:48
與王楚欽低調完婚內幕曝光后,陳夢官宣新身份,怪不得退出國家隊

與王楚欽低調完婚內幕曝光后,陳夢官宣新身份,怪不得退出國家隊

小椰的奶奶
2026-06-12 15:24:58
日本突然變便宜的真相!絕非薅羊毛,全球金融大危機才剛開始

日本突然變便宜的真相!絕非薅羊毛,全球金融大危機才剛開始

流蘇晚晴
2026-06-12 13:06:31
李佳琦帶貨奔馳,一秒售罄震驚行業!

李佳琦帶貨奔馳,一秒售罄震驚行業!

財經三分鐘pro
2026-06-12 15:47:59
《飄》:沒有一個男人回頭是想重新愛你一次,他愿意回頭找你的理由只有兩種,要么是當初沒從你這里撈到好處,要么是發現身邊沒人比你更傻

《飄》:沒有一個男人回頭是想重新愛你一次,他愿意回頭找你的理由只有兩種,要么是當初沒從你這里撈到好處,要么是發現身邊沒人比你更傻

心理觀察局
2026-06-12 07:06:06
63歲阿湯哥被曝“越老越瘋”,同行都看不下去了

63歲阿湯哥被曝“越老越瘋”,同行都看不下去了

生活觀察員啊
2026-06-11 01:22:03
丁太升銳評謝娜開巡演,不帶一個臟字,但句句聽著太毒舌

丁太升銳評謝娜開巡演,不帶一個臟字,但句句聽著太毒舌

生命之泉的奧秘
2026-06-11 16:26:05
2026-06-12 16:40:49
中科智媒
中科智媒
聚焦新聞前沿,每日熱點速遞
857文章數 11806關注度
往期回顧 全部

科技要聞

鴻蒙7發布,余承東:首個完成AI化改造系統

頭條要聞

國內最大黃金盜竊案告破:價值2700萬 兩主犯身份披露

頭條要聞

國內最大黃金盜竊案告破:價值2700萬 兩主犯身份披露

體育要聞

歐洲恐韓?肉德維德?

娛樂要聞

與熱巴戀情曝光1天,陳飛宇現身

財經要聞

萬億美元順差背后,透露這些信號

汽車要聞

佟湘北:全新smart#6 自成一派好看更好開

態度原創

健康
旅游
時尚
教育
軍事航空

為什么不建議晚上吃粽子?

旅游要聞

湖北襄陽:溶洞秘境引客來

奚夢瑤帶火的這個單品,原來日常可以這樣用

教育要聞

七點鐘到校即將成為歷史

軍事要聞

伊朗媒體:已故最高領袖葬禮推遲舉行

無障礙瀏覽 進入關懷版