網易首頁 > 網易號 > 正文 申請入駐

AI科學家還在刷靜態榜?基準主動反擊,重塑自動科研評價標準

0
分享至


新智元報道

編輯:LRST

【新智元導讀】AI Scientist正把「自動科研」推向新階段,但一個更危險的問題也在浮出水面:當evaluator是靜態的,系統學到的可能不是科學機制,而只是「怎么把這張考卷做高分」。

自動科研真正的危險,已經不是「不會搜」,而是「太會刷靜態評測」。

過去一年,AI Scientist一類系統已經展示出驚人的能力:提出想法、寫代碼、跑實驗、分析結果,甚至自動生成論文。但系統越強,一個更本質的問題就會越尖銳:如果評測環境是凍結的,系統完全可能學會「贏過評測」,卻沒有真正學會任務背后的科學機制。

這篇論文最重要的判斷,就在這里。

德州農工大學、伊利諾伊大學厄巴納-香檳分校等機構的研究人員指出,autonomous scientific discovery面臨的核心風險,不再只是搜索不夠強,而是cognitive overfitting to the benchmark itself:一個足夠強的搜索過程,可能會比理解科學更快地學會「如何贏這張考卷」。


論文鏈接:https://arxiv.org/abs/2603.29045

這也是論文標題 Let the Abyss Stare Back 的真正含義。所謂「讓深淵回望」,不是一句修辭,而是在方法論上把評測從靜態、凍結、被動的「考試卷」,改成會主動反擊、主動找漏洞、主動逼近脆弱點的 falsifier。不是候選只去適應 benchmark,而是 benchmark 開始反過來審問候選。

DASES(Dynamic Adversarial Scientific Environment Synthesis and Mechanistic Co-Evolution)改寫的,不是搜索能力,而是「什么才算發現」。

DASES把「提出候選—打分—保留」,改寫成「提出候選—主動反證—解釋失敗—最小修正—繼續進化」。

在這個框架里,有三個彼此咬合的角色:

  • Innovator負責提出新的科學候選;

  • Abyss Falsifier不再是被動打分器,而是會圍繞當前候選,動態構造新的反例環境,專門去找它的 shortcut、脆弱假設、尾部風險和組合失穩;

  • Mechanistic Causal Extractor則不只報告「失敗了」,還要回答兩個更關鍵的問題:為什么失敗,以及下一輪最小應該改什么。

這里最關鍵的一點是:DASES生成的不是「隨便攻擊一下」的 adversarial case,而是科學上可接受的反證環境

環境可以變難,可以推到尾部,可以加入反事實和組合擾動,但任務語義不能被破壞,它要做的不是通過篡改問題定義來「強行打穿」,而是在問題仍然成立的前提下,主動挖出候選最不該有的脆弱性。

所以,DASES 追求的不是「在固定 benchmark 上分數最高的候選」,而是在當前最強、且仍然合法的 falsification frontier 下,依然活下來的候選。這也是它和很多現有 autonomous scientist 框架最根本的區別:不是搜索更大了,而是評價標準被改寫了

實驗設計

最聰明的設計,是把實驗做得極其「干凈」:整場 discovery game 里,只允許改 loss

為了把這個方法學問題講清楚,作者沒有一上來就做一個邊界模糊的大任務,而是故意挑了一個窄,但科學解釋力極強的問題:自動發現一個更強的圖像分類 loss function,并允許帶regularization。

但真正厲害的地方在于,整個 discovery 過程被設計得非常嚴格:唯一允許被編輯的地方,只有loss。

backbone、optimizer、訓練 schedule、數據增強、數據管線、評測邏輯,全部凍結。系統不能通過偷偷改訓練策略、順手調超參數、或者碰其他模塊來「刷出一個更好結果」。任何提升,最后都只能歸因到loss本身。

這就是論文強調的single editable scientific locus。它看似只是一個實現約束,實際上是整套方法的科學底座:如果你不把可編輯位點鎖死,自動科研系統就很容易在你沒有意識到的地方「動手腳」,結果看起來像發現,本質上卻只是 protocol gaming。

作者專門搭了一個「誘導模型走捷徑」的discovery lab,用來證明靜態驗證為什么會騙人。

在實驗里,作者構造了一個 synthetic discovery environment。表面上看,它只是一個四分類圖像識別任務;但真正決定標簽的機制只有一個:前景形狀幾何。也就是說,模型本來應該根據圓形、方形、三角形和其他多邊形的形狀來分類。

問題在于,訓練分布被故意做成了一個「很容易讓模型學歪」的環境: 每一類前景,會高概率對應某種背景顏色—紋理家族。于是模型最容易學到的,不是前景幾何,而是背景統計。

更關鍵的是,這些背景并不是簡單模板,而是包含豐富隨機變化的紋理族。換句話說,這不是一個粗糙的玩具設置,而是一個可復現、可審計、專門用來暴露 shortcut reliance 的 falsification lab

因此,這篇論文真正要證明的,并不是「AI 能不能找到一個更強的 loss」這么簡單,而是另一個更關鍵的問題:

如果 test set 會持續追著候選的脆弱點打,那么那些在靜態驗證下看起來已經足夠好的候選,還能不能撐到最后?

實驗結果

表1和圖1說明了:靜態驗證一路高歌,真正的失敗模式卻被一輪輪逼了出來。



因為它們展示的不是「某個方法分數更高」,而是一個更本質的事實:靜態 ID validation 可能一直在制造「模型已經很好」的幻覺,但只要 falsifier 往前推進一步,隱藏失敗模式就會立刻暴露。

表1把DASES的discovery軌跡拆成了一輪輪非常清楚的事件。最開始,系統在一個 shortcut-biased 的環境里前進;隨后,Falsifier先加入neutral-background counterfactuals,再加入更難的background-family swaps,再到更強調幾何穩定性的invariance-heavy geometry stress,最后是把多種有效擾動疊加在一起的compositional tail interactions

這張表最精彩的地方,在于它讓讀者一眼看出「誰到底在學什么」。

早期候選一遇到背景反事實就明顯崩掉,說明它們主要學的是背景shortcut;CE成為第一個 bottleneck,說明它修復了最粗淺的一層shortcut,但還遠沒有真正學到穩定機制;

當Falsifier 繼續加入幾何不變性壓力后,CE的test表現明顯回落,說明模型還沒有形成穩健的幾何表征; 隨后CE+L2成為第二個 bottleneck,它比CE更穩,但一旦進入組合式tail stress,依然會被繼續打穿;

最后,FNG-CE在D4上達到54.4%,而到最后一次D5擴張時僅下降0.1,成為第一個真正跨過當前falsification frontier的候選。

所以表1真正證明的,不是「FNG-CE 比 CE 高了多少」,而是:不是誰先在靜態驗證上得高分,誰就算發現;而是誰在一輪輪更強、但仍然合法的反證里不崩,誰才配被保留下來。

再看圖1,這個邏輯就更直觀了。圖里灰線是靜態 ID validation accuracy,幾乎始終維持在高位;藍線是 discovery-lab test accuracy,每當紅色菱形標記的 falsifier 擴張出現時,藍線都會突然掉一截。這個圖最有沖擊力的地方就在于:「看起來一直很好」與「真的經得起反證」根本不是一回事。

灰線告訴你,如果只看靜態 validation,你會誤以為系統一直在穩定進步; 藍線則告訴你,每一次新的合法反證,都會把一個之前看不見的失敗模式拽到臺前。 直到最后,FNG-CE 才第一次把「高分」和「抗打」真正統一到一起。

換句話說,表1是逐輪證據,圖1是整體故事:靜態評測給的是樂觀幻覺,動態 falsification 才在真正篩掉「只會考試」的候選。

FNG-CE 不是拍腦袋堆 regularization,而是被 falsification trace 一步步「逼」出來的最小修正

這篇論文還有一個非常重要的點:FNG-CE 不是作者主觀挑出來的「更復雜的 loss」,而是順著前面每一輪 falsification 暴露出的失敗模式,被一步步逼出來的。

在 CE+L2 之后,Mechanistic Causal Extractor 發現還剩下兩類關鍵問題沒有解決。

第一,模型仍然可能通過放大 feature norm 來「靠長度取勝」,也就是置信度看起來更高了,但不代表它真的學到了更穩的判別機制; 第二,特征空間的幾何結構仍然不夠均勻,存在冗余和各向異性,因此一旦反事實和組合擾動疊加,類間分離仍然會塌。

于是,DASES構造了FNG-CE: 在 CE 的基礎上,同時加入feature norm regularizationfeature covariance geometry regularizationL2 weight decay

三個部分分別在修三種不同的問題:

norm項,抑制「靠模長刷置信度」;

covariance項,讓特征幾何更均勻、更不容易在復雜擾動下失穩;

L2項,繼續提供標準的容量控制。

所以這篇論文真正想說明的,不是這些ingredient在歷史上從未出現過,而是:在固定協議、單一編輯位點和動態falsification的共同約束下,這個具體組合是第一個能撐過完整前沿的最小機制性答案。

這也是FNG-CE最有說服力的地方:它不是「設計出來」的,而更像是被反證鏈條一路「逼出來」的。

表2和表3回答了最關鍵的問題:它不只是適配 synthetic lab,而是真的遷移到了標準 benchmark


說到這里,一個最自然的問題就是:FNG-CE會不會只是特別適配這個 synthetic falsification lab?

論文用表2表3給出了非常正面的回答。作者把FNG-CE的解析形式原樣遷移到標準自然圖像分類benchmark上,在ResNet-18和ResNet-50下做受控比較。

結果非常整齊,如表2所示,在ResNet-18上,FNG-CE在CIFAR10、CIFAR100、DTD、CUBirds、VGGFlower、TrafficSigns六個數據集上全部優于 CE; 而如表3所示,在ResNet-50上,FNG-CE在ImageNet、CIFAR10、CIFAR100、DTD、CUBirds、VGGFlower、TrafficSigns七個數據集上同樣全部取得最好結果。

其中最有傳播力的一個數字,就是ImageNet。在ResNet-50上,FNG-CE達到71.56%,相比CE的70.73%提升了0.83個百分點。這意味著DASES逼出來的,不只是一個「更適合 discovery lab」的技巧,而是一種更可遷移的 loss-level inductive bias

這里還有一個很值得強調的細節:CE+L2 并沒有呈現出這種一致提升。

也就是說,事情不是「多加一點 regularization 就能贏」,也不是「在 synthetic 環境里更穩一點,就一定能遷移出去」。

真正起作用的,是 DASES 通過動態 falsification 找到的那條機制線索:模型不僅要擺脫 shortcut,還要減少幾何脆弱性,并在合法的組合擾動下保持穩定。只有沿著這條線逼出來的 loss,才會在真實 benchmark 上繼續成立。

總結

這篇工作的真正價值,不只是發現了一個新 loss,而是把自動科研往前推了一步

如果只把這篇工作理解成「找到一個新的圖像分類 loss」,其實是低估了它。

它真正重要的地方在于,它改寫了 autonomous scientific discovery 的評價標準:

不是高分即發現,而是經得起主動反證,才算發現。

過去的自動科研系統,更像是在刷一張固定考卷; 而 DASES 做的,是讓考卷自己長出反擊能力。 過去大家更關心的問題,是「AI 能不能更快搜索」; 而這篇論文在追問一個更關鍵的問題:

當 benchmark / test set開始主動找你的脆弱點時,你的發現還能不能站住?

從這個意義上說,FNG-CE 的意義不只是它在論文給出的受控比較中優于 CE 和 CE+L2,更在于它是一個被「合法反證」一路逼出來,并最終跨過 falsification frontier 的候選。它代表的不是「更會刷分」,而是更難被科學上合理的反例擊穿。

這也許正是 AI Scientist 下一階段最關鍵的方法學信號:

讓 benchmark / test set fight back。讓評測從被動驗收,變成主動找脆弱點。讓自動發現不再由「誰看起來最好」定義,而由「誰最難被合法擊穿」定義。

參考資料:

https://arxiv.org/abs/2603.29045

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
民進黨,極有可能在下一屆臺灣地區選舉后,成為長期一家獨大政黨

民進黨,極有可能在下一屆臺灣地區選舉后,成為長期一家獨大政黨

李橑在北漂
2026-04-02 10:22:26
伊朗艦艇護送一散貨船進入領海

伊朗艦艇護送一散貨船進入領海

環球網資訊
2026-04-24 07:09:08
歐盟強制手機必須能自己換電池,不改就不準賣

歐盟強制手機必須能自己換電池,不改就不準賣

桂系007
2026-04-22 23:56:55
誰把球放對面球門里了?赫塔費全場0射正但贏下了比賽

誰把球放對面球門里了?赫塔費全場0射正但贏下了比賽

懂球帝
2026-04-24 11:01:14
真的慌了!看了ChatGPT Images 2.0一鍵生成的PPT,我們嚇出一身冷汗……

真的慌了!看了ChatGPT Images 2.0一鍵生成的PPT,我們嚇出一身冷汗……

秋葉PPT
2026-04-23 08:22:02
各科醫生最想跟你說的大實話,很有用!收藏好常看看

各科醫生最想跟你說的大實話,很有用!收藏好常看看

華人星光
2026-04-23 12:00:20
我退休金7500,每月都給兒子打3000,兒媳給我們6000,剩下的您零花

我退休金7500,每月都給兒子打3000,兒媳給我們6000,剩下的您零花

楓紅染山徑
2026-04-23 11:30:47
不露面不知道,一露面嚇一跳,這些明星怎么都老成這個樣子了

不露面不知道,一露面嚇一跳,這些明星怎么都老成這個樣子了

孤城落日
2026-04-20 19:26:14
解放軍唯一的一次烏龍,一野和二野打了一個晚上,各自傷亡多少人

解放軍唯一的一次烏龍,一野和二野打了一個晚上,各自傷亡多少人

舊史新譚
2026-04-05 17:00:22
金融圈突發!涉嫌嚴重違紀違法,張文被查

金融圈突發!涉嫌嚴重違紀違法,張文被查

中國基金報
2026-04-23 12:23:24
沈夢辰自曝在家和坐車都要做防曬,起床就會擦,稱已和自己的黑和解,“一個黃黑皮,怎么也不可能變成一個冷白皮”

沈夢辰自曝在家和坐車都要做防曬,起床就會擦,稱已和自己的黑和解,“一個黃黑皮,怎么也不可能變成一個冷白皮”

臺州交通廣播
2026-04-24 12:15:29
“甘蔗運來我們都要!”廣東化州一糖廠主動收購蔗農滯銷果蔗,幾百輛貨車排隊兩三公里等候,廠里還派人為司機送三餐和水

“甘蔗運來我們都要!”廣東化州一糖廠主動收購蔗農滯銷果蔗,幾百輛貨車排隊兩三公里等候,廠里還派人為司機送三餐和水

極目新聞
2026-04-23 20:01:05
田曦薇,美極了

田曦薇,美極了

手工制作阿殲
2026-04-24 16:00:19
老人存款多少有安全感?達到這個數足夠用了,你可以橫著走了

老人存款多少有安全感?達到這個數足夠用了,你可以橫著走了

暖風吹過竹林
2026-04-24 15:07:43
OpenClaw,崩了!

OpenClaw,崩了!

新智元
2026-04-23 18:38:34
商業航天:下一個10倍“易中天”,三大催化與三條主線全解析

商業航天:下一個10倍“易中天”,三大催化與三條主線全解析

Thurman在昆明
2026-04-24 08:09:53
一片沒買!高端芯片缺席中國市場,美商務部長:中國快研發出來了

一片沒買!高端芯片缺席中國市場,美商務部長:中國快研發出來了

林子說事
2026-04-23 12:56:34
快滅國了卻執意和中國斷交,“抱大腿”無望又求援,中方:不慣著

快滅國了卻執意和中國斷交,“抱大腿”無望又求援,中方:不慣著

黑翼天使
2026-03-30 13:23:53
TVB老戲骨忍無可忍含淚揭家丑,每月接濟兒子五萬,走了向太老路

TVB老戲骨忍無可忍含淚揭家丑,每月接濟兒子五萬,走了向太老路

翰飛觀事
2026-04-22 19:35:28
殲10CE戰機,出現在伊朗,不是梟龍3,伊朗空軍要看貨?

殲10CE戰機,出現在伊朗,不是梟龍3,伊朗空軍要看貨?

萬里繁華
2026-04-24 15:13:48
2026-04-24 16:35:00
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
15053文章數 66798關注度
往期回顧 全部

科技要聞

DeepSeek V4牽手華為,價格依然"屠夫級"

頭條要聞

女子買二手奔馳里程數偏差20萬公里 看到事故記錄崩潰

頭條要聞

女子買二手奔馳里程數偏差20萬公里 看到事故記錄崩潰

體育要聞

里程碑之戰拖后腿,哈登18分8失誤

娛樂要聞

停工16個月!趙露思證實接拍新劇

財經要聞

19家企業要"鋁代銅",格力偏不

汽車要聞

YU7 GT 5 月上市!小米Vision GT概念車國內首秀

態度原創

健康
手機
教育
本地
公開課

干細胞如何讓燒燙傷皮膚"再生"?

手機要聞

榮耀600e手機現身Geekbench跑分庫:有望搭天璣7100

教育要聞

江西省委宣傳部原常務副部長陳東有:教育孩子不能太急切

本地新聞

云游中國|逛世界風箏都 留學生探秘中國傳統文化

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版