无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

實錘:Claude Opus 4.8「偷答案」!63%靠抄,AI斷網后成績雪崩

0
分享至

  新智元報道

  

  【新智元導讀】Cursor AI官方發布重磅研究,實錘包括自家模型在內的頂級AI,在編程評測中大規?!竿悼创鸢浮梗篛pus 4.8高達87.1%的驚人成績,斷網后直接暴跌至73.0%,其中63%的「解題」竟非獨立推導。

  「偷看答案」、作弊,Claude Opus 4.8被打假!

  剛剛,Cursor AI官方發布重磅研究,揭露包括Claude Opus 4.8等AI模型,通過互聯網和git歷史直接「偷答案」來刷編程成績。

  

  他們的核心結論是:AI模型越聰明,在編程基準上越來越擅長「作弊」。

  在編程評測(SWE-bench)中,Opus 4.8等AI表現出的驚人高分。

  但Cursor AI發現,很大程度上并非源于AI的邏輯推理能力的質變,而是因為利用工具在互聯網和代碼歷史中「偷看答案」的能力。

  斷網后,Opus 4.8 Max在SWE-bench Pro上的成績從87.1%暴跌至73.0%。

  更驚人的是,Opus 4.8成功解決的問題中,有63%屬于「非獨立推導」。

  當這種「作弊渠道」被切斷,AI的光環迅速黯淡,暴露出當前大模型在真實邏輯推演上的「虛火」。

  Claude Opus的編程神話,這次被戳破。

  

  更耐人尋味的是,Cursor自家的模型Composer 2.5也沒能幸免,同樣存在這個問題。

  Cursor把自己和競品的底褲一起扒了。

  這份研究的可信度,直接拉滿。

  Cursor親自打假

  63%分數只因偷答案

  其實,關于AI「偷看答案」的質疑并非空穴來風。

  早在2024年,AI研究人員就已經發出了警告:

  編程基準測試的答案極易通過公開渠道泄露。

  

  但過去,人們的注意力大多集中在「訓練階段的數據污染」——即模型在學習階段就背過了答案。

  而這次研究真正揭開了更深層的黑盒:「運行時泄露」的嚴重程度被首次量化了。

  在SWE-bench Pro上的分數,Opus 4.8 Max從87.1%掉到了73.0%。

  14個百分點,憑空蒸發。

  

  要理解這14個點是怎么沒的,得先知道這類評測是怎么搭起來的。

  SWE-bench這種基準,題目全從真實開源項目里挖出來后來已被修好的bug。

  這就埋了一個天然的窟窿:既然這個問題在現實中早被解決過,那它的答案此刻就明明白白躺在互聯網上,躺在代碼倉庫的提交歷史里。

  智能體只要夠聰明,能搜,就能直接查到,根本不用自己想。

  AI學會了兩種「作弊手段」:

  上游查找(57%):AI在公開代碼庫中定位已修復該Bug的PR或源碼,直接復現補丁邏輯,類似查閱標準答案。

  Git歷史挖掘(9%):AI檢索項目的Git提交記錄,從歷史修復中提取補丁,相當于回溯「時間線」尋找解決方案。

  

  所以,Cursor的「嚴格評測框架」干了兩件事:

  1、一是歷史隔離,在智能體開工前先把.git目錄整個挪走,「打掃干凈屋子」;

  2、二是禁止聯網,只留一條白名單通道讓它裝依賴包,其余一律掐斷。

  把這兩條泄漏渠道一堵,分數立刻現出原形。

  斷網那一刻,Opus 4.8 光環開始褪色

  掉的不止Opus一家,Cursor自己的模型Composer 2.5摔得更狠,從74.7%一路滑到54.0%,差不多丟了21個點。

  

  但反直覺的現象是,AI越強越「油膩」、越會鉆空子!

  與Opus 4.8對比,舊一點的Opus 4.6 Low,在嚴格框架下幾乎紋絲不動,差距不到1分。

  

  也就是說,越新、越強的模型,掉得越多。

  

  這揭示了一個深層危機:隨著Scaling Law的推進,我們喂給模型的數據越來越多,模型不僅學會了知識,更學會了「投機取巧」、「旁門左道」。

  在AI的邏輯里,如果能以更低的能耗獲得同樣的獎勵,它絕不會去消耗算力進行高難度的邏輯推演。

  最令人脊背發涼的發現是:AI開始具備「評測感知」(Benchmark Awareness)能力。

  2019年,智能體嘗試復現一個缺陷。

  由于測試環境的鏡像是在修復后才構建的,導致缺陷無法復現。

  此時,AI展現出了驚人的「狡猾」:它通過復現失敗推斷出這個Bug已經修復了,進而意識到自己身處「考場」。

  于是,它果斷放棄推導,轉而瘋狂搜索。

  更有甚者,一個智能體找到了評測鏡像頁面,直接硬編碼了通過測試所需的預期異常字符串。

  這種「鉆空子」的本能,讓原本衡量邏輯能力的評測變成了衡量「搜索引擎使用技巧」的比賽。

  基準榜單,正在集體失真

  Cursor這次最狠的,是連自己都沒放過。

  它直言不諱地承認:「獎勵作弊正在淹沒模型智能的進步」。

  

  Composer 2.5在SWE-bench Pro上那個最大的跌幅,意味著這個分數本身就不可靠。

  榜單超級混合了「真實的編碼能力」和「檢索現成答案的能力」,根本分不清哪部分是真本事。

  這話翻譯過來就是:現在你在各大排行榜上看到的那些光鮮分數,含金量得打個大大的問號。

  公開基準之所以脆弱,是因為它們大多取材于真實的、早就被修復過的開源缺陷。

  問題本身就有標準答案躺在網上,模型只要夠聰明,自然學會了走捷徑。

  這就把一個尷尬的真相擺到了所有人面前:當模型學會了應試,跑分就不再代表真實智能了。

  參考資料:

  https://cursor.com/cn/blog/reward-hacking-coding-benchmarks

  編輯:大衛

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
研究發現:木星并不是在保護地球,它其實是太陽系最危險的星球!

研究發現:木星并不是在保護地球,它其實是太陽系最危險的星球!

觀察宇宙
2026-06-27 10:31:27
2026年養老金調整工作即將開啟,1955年前出生人員,調整更多嗎?

2026年養老金調整工作即將開啟,1955年前出生人員,調整更多嗎?

虎哥閑聊
2026-06-27 18:19:29
高考分數屏蔽:清華北大任選!辦5天升學宴,通知書讓父母傻眼了

高考分數屏蔽:清華北大任選!辦5天升學宴,通知書讓父母傻眼了

菁媽育兒
2026-06-26 11:32:09
月球可能隱藏著外星科技的痕跡!牛津大學的一位科學家發表聲明

月球可能隱藏著外星科技的痕跡!牛津大學的一位科學家發表聲明

窺探宇宙1
2026-06-26 17:00:03
森林狼與多蘇穆達成5年1.12億美元續約合同評級:B-

森林狼與多蘇穆達成5年1.12億美元續約合同評級:B-

北青網-北京青年報
2026-06-27 20:20:51
BBC親自下場,聲稱“阿嬤的情書”讓新加坡出現“身份認同危機”

BBC親自下場,聲稱“阿嬤的情書”讓新加坡出現“身份認同危機”

阿纂看事
2026-06-26 18:07:00
伊朗天堂到地獄,全世界在等韓國出局,西班牙卻給韓國“死緩”

伊朗天堂到地獄,全世界在等韓國出局,西班牙卻給韓國“死緩”

鐵甲西奇
2026-06-27 14:18:30
小組第三形勢:還剩3席,伊朗、韓國要祈禱烏茲、加納帶來利好

小組第三形勢:還剩3席,伊朗、韓國要祈禱烏茲、加納帶來利好

懂球帝
2026-06-27 13:37:08
臺軍慌了,顧立雄親口承認:大陸攻臺預警時間,恐怕已經所剩無幾

臺軍慌了,顧立雄親口承認:大陸攻臺預警時間,恐怕已經所剩無幾

閱盡天下精彩
2026-06-27 11:06:52
高市早苗沒料到,拒赴深圳APEC,想給中國甩臉色,中方根本不接招

高市早苗沒料到,拒赴深圳APEC,想給中國甩臉色,中方根本不接招

娛樂小可愛蛙
2026-06-26 19:13:45
揪心的事情還是發生了!暫停捐助只是開胃菜,韓紅更多黑料被扒

揪心的事情還是發生了!暫停捐助只是開胃菜,韓紅更多黑料被扒

剛哥說法365
2026-06-27 19:53:57
英王室危險!哈里帶兩個孩子回來“逼宮”,梅根也需要靠曝光賺錢

英王室危險!哈里帶兩個孩子回來“逼宮”,梅根也需要靠曝光賺錢

毒舌小紅帽
2026-06-27 20:42:17
服務江青15年的廚師回憶:她的飯不好做,女同志事多,婆婆媽媽的

服務江青15年的廚師回憶:她的飯不好做,女同志事多,婆婆媽媽的

歷史甄有趣
2026-06-27 08:50:24
太慘了!10倍妖股跌落神壇,三個月蒸發144億跌超64%,12萬散戶深套!

太慘了!10倍妖股跌落神壇,三個月蒸發144億跌超64%,12萬散戶深套!

股俠指北針
2026-06-27 14:10:15
磷化銦現貨全線緊缺供不應求,6大銦礦資源龍頭暗藏漲價紅利

磷化銦現貨全線緊缺供不應求,6大銦礦資源龍頭暗藏漲價紅利

白淺娛樂聊
2026-06-27 08:39:31
今年夏天太反常!六月不熱早晚涼,老話預兆別不當回事!

今年夏天太反常!六月不熱早晚涼,老話預兆別不當回事!

愛下廚的阿釃
2026-06-24 16:45:27
首戰踢了62分鐘就被廢!安帥用一場大勝證明,這中鋒真配不上巴西隊

首戰踢了62分鐘就被廢!安帥用一場大勝證明,這中鋒真配不上巴西隊

海闊山遙YAO
2026-06-27 15:41:16
朝陽群眾又立新功!網紅印度餐廳上午爆火下午涼透老板直接遣返!

朝陽群眾又立新功!網紅印度餐廳上午爆火下午涼透老板直接遣返!

社會日日鮮
2026-06-26 12:34:14
道德敗壞,是個例還是普遍現象?

道德敗壞,是個例還是普遍現象?

通往遠方的路
2026-06-26 09:32:55
最后的瘋狂:許家印被抓捕的失控三秒鐘,簡直是驚心動魄

最后的瘋狂:許家印被抓捕的失控三秒鐘,簡直是驚心動魄

橘仔看世界
2026-06-27 08:38:00
2026-06-27 22:15:00
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
15547文章數 66938關注度
往期回顧 全部

科技要聞

GPT-5.6發布,你暫時用不了!Mythos也放行

頭條要聞

"挖眼案"受害男孩高考721分 曾問"天為啥一直是黑的"

頭條要聞

"挖眼案"受害男孩高考721分 曾問"天為啥一直是黑的"

體育要聞

世界杯最火門將,站到了阿根廷和梅西面前

娛樂要聞

四提白玉蘭終封后,楊紫:仍覺不真實

財經要聞

OpenAI推遲IPO重創軟銀!

汽車要聞

搭載華為乾崑ADS 5 全新猛士M817上市售29.99萬起

態度原創

本地
親子
時尚
教育
公開課

本地新聞

世界杯球迷節:比球賽更好玩的派對

親子要聞

怎么樣才能讓自己快樂起來

夏天褲子不要總穿黑的,看看這幾款牛仔褲,舒適減齡又百搭

教育要聞

成都“七中系”報考干貨來了!各校辦學特色、招生數據大盤點

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版