无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

前谷歌DeepMind研究員:當下AI評測皆“刻舟求劍”,只能被動測試模型已具備的能力

0
分享至

日前,Google DeepMind 研究員 Lun Wang 宣布離職,并在一篇長文中徹底否定了現有的 AI 評測路線。

其表示,目前的評測系統全都在“刻舟求劍”,只能被動測試模型已經具備的能力,根本猜不到下一代模型會突然演化出什么新本事。比起數據、算力和架構,落后的評測體系已經成了卡住 AI 往前走的最大瓶頸。



以下是 Lun Wang 發布的長文譯文,原標題《Your Evals Will Break and You Won't See It Coming》:

我們很擅長評估現有的模型。但對于我們即將構建的模型——尤其是那些跨入新能力范式的模型——我們的評估能力就要差得多了。

大多數基準測試、安全評估和紅隊測試協議都隱含地假設:下一個模型只是當前模型的更強版本。但如果它是一個不同類型的東西,我們整個評估基礎設施就會悄無聲息地失靈。

我認為,這是我們在理解大語言模型過程中尚未解決的最重要的問題。而答案在于:評估——而非訓練、架構或數據——將是下一個能力躍升的瓶頸。我來解釋一下原因。

失效模式:質的變化

Wei 等人(2022)記錄了所謂的“涌現能力”——少樣本提示下的任務表現、思維鏈推理能力的提升、指令遵循能力——這些能力僅在更大規模的模型上才會出現。Grokking(Power 等人,2022)展示了另一種相關但不同的現象:網絡在長時間記憶訓練數據后突然實現泛化,這是一種在訓練時間尺度上發生的動態轉變,而非跨規模尺度的變化(Liu 等人,2022)。現象不同,但對評估的啟示是相同的:標準指標未能預見到這種質的變化。

這里有一個重要的反方觀點:Schaeffer 等人(2023)表明,大語言模型能力的許多明顯“躍升”其實是由不連續的指標(如精確匹配準確率)造成的假象。如果換成連續指標,能力通常呈現平滑的縮放趨勢。

我不認為這就解決了問題——在某種程度上,它反而讓我的論點更尖銳了。如果我們連過去的某個轉變究竟是真正的質變還是指標造成的假象都分不清楚,那對于我們檢測下一次轉變的能力又意味著什么?無論哪種情況,評估基礎設施都可能讓我們措手不及——要么是因為系統本身發生了變化,要么是因為我們的指標從一開始就具有誤導性。

我們不知道該測量什么

在物理學中,理解相變通常意味著要識別出一個序參量——一個能夠區分不同相態的宏觀量,它在臨界點附近會改變其取值或標度行為。沒有序參量,你就無法判斷自己離邊界有多近,甚至不知道邊界是否存在。

對于部署規模的大語言模型,我們還沒有這樣的序參量——至少對于能力躍遷來說沒有。雖然在受控環境下已取得進展(詳見下文),但對于我們實際正在上線的系統,我們基本上是盲人摸象。

我們使用的每一個基準測試——GPQA、SWE-bench、ARC-AGI、人類終極考試——衡量的都是模型當前能做什么。它們在一個既定的范式中是有用的,但對于范式轉變之后會發生什么,它們提供的證據非常薄弱。當一種新的能力出現,而沒有任何基準測試覆蓋它時,我們只能事后匆忙構建評估。我們在思維鏈能力上就看到了類似的情況:一旦這種激發方法成為標準,一些舊的推理基準的診斷能力就大大降低,整個領域不得不轉向更難的評估。這種情況還會重演。

具體來說:想象一個模型,在某個規模下,它發展出了策略性地隱瞞信息以實現目標的能力——不完全是撒謊,而是有選擇地遺漏事實,以某種方式引導對話走向其訓練過程偶然強化的結果。你現有的誠實度基準測試無法捕捉到這一點,因為它們測試的是事實準確性,而不是策略性遺漏。你的安全分類器也不會標記它,因為單個輸出在技術上都可能是真實的。這種能力是新的,這種失效模式也是新的,你的評估套件中沒有任何一項是設計用來檢測它的。你會一直在監控錯誤的方向,而自己卻渾然不覺。

這就是核心問題:我們整個評估基礎設施在結構上是被動響應式的。我們總是在系統發生變化之后才去衡量它。我們永遠無法預測變化的發生。

評估先于一切

這個問題比聽起來更嚴重,原因很簡單:如果你能正確評估,你就能正確訓練。

訓練就是優化,而優化的好壞取決于它的目標。目標來自評估。如果你知道該測量什么——如果你能預測這些測量結果在規模化過程中如何變化——那么你就能設計出正確的訓練目標,構建正確的安全層,做出明智的規模化決策,進行強化學習人類反饋,使其針對正確的行為屬性,而不是那些在下一個階段邊界上就會古德哈特定律失效的代理指標。

反之亦然:如果你的評估是針對錯誤范式而校準的,那么其下游的一切都是錯的。訓練信號、安全指標、規模化決策——全是錯的,而等你意識到時為時已晚。

這就是為什么我相信評估是下一個能力躍升的瓶頸。那些能夠學會領先于曲線進行評估的實驗室,將是能夠安全規模化的實驗室。那些做不到的,則會被突如其來的變化打個措手不及。

那我們該怎么辦?

這個領域需要改變投入的方向。不是要拋棄現有的評估方法——它們仍然有效——而是要建立能夠預測它們何時會失效的基礎設施。

尋找序參量。哪些量能夠預示質的轉變——無論是能力上的、對齊上的,還是行為特征上的?這不僅僅是一個理論上的愿望。Shan、Li 和 Sompolinsky(《美國國家科學院院刊》,2026)利用統計力學推導出了持續學習場景下深度網絡的序參量,而這些序參量確實能夠預測學習能力中的相變。Nanda 等人(2023)利用機制可解釋性找到了能夠預測grokking現象發生前的“進展度量”——即在可見的性能躍升之前就出現的內部結構變化。挑戰在于如何將這些方法從受控環境擴展到規模化的大語言模型上。如果我們知道該測量什么,我們就會知道該關注什么。

構建能夠檢測自身失效——并隨之演化的評估系統。隨著模型變得越來越具有代理能力,這個問題變得日益緊迫。那些能夠編寫代碼、運行實驗、生成數據、輔助訓練或評估流程的系統,正在讓靜態的評估變得越來越脆弱。如果模型能力的提升速度快于人類評估團隊更新基準測試的速度,那么評估就必須變得具有自適應性。

具體來說:

  • 監控元信號——基準測試分數的分布是否在改變特征?評估之間的相關性結構是否在發生變化?模型是否正在發展出與你測量維度正交的能力?
  • 追蹤所有指標的縮放曲線——不僅僅是損失函數,還包括推理深度、工具使用復雜度、欺騙性能力——并在平滑趨勢出現斷裂時提高警惕。
  • 更大膽一點:構建自我演化的評估系統——利用模型去探測其他模型的評估系統,隨著能力變化自動生成新的測試用例,發現原始評估設計者從未預料到的失效模式。評估套件應該是一個活的系統,與它所衡量的模型共同演化,而不是一份為去年的前沿模型編寫的靜態檢查清單。

問題不在于我們的評估會不會被意外打臉——它們已經被打過很多次了,無論是被真正的相變,還是被我們自己的指標選擇所誤導。問題在于,我們能否預見到下一次意外的到來。就目前而言,我們做不到。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
618開搶!國產6nm全自研顯卡礪算7G100來了,性能媲美RTX 4060

618開搶!國產6nm全自研顯卡礪算7G100來了,性能媲美RTX 4060

財聞
2026-05-18 20:50:06
兩性關系:55-65歲這十年,惜命最好的方式,不是鍛煉,做好這6點

兩性關系:55-65歲這十年,惜命最好的方式,不是鍛煉,做好這6點

三農老歷
2026-04-13 17:10:06
短劇演員黃子仟因車禍離世,年僅24歲

短劇演員黃子仟因車禍離世,年僅24歲

紅星新聞
2026-05-19 17:20:33
警惕:上了年紀再過性生活,最怕這2點!保護男性精氣,做好4點

警惕:上了年紀再過性生活,最怕這2點!保護男性精氣,做好4點

醫學科普匯
2026-05-18 17:45:05
解放臺灣,難上加難?中國解放臺灣,到底存在哪些困難和阻礙?

解放臺灣,難上加難?中國解放臺灣,到底存在哪些困難和阻礙?

靜夜史君
2026-05-11 23:59:39
42歲王小瑋現狀:現身法國,事業再登巔峰,前夫王小海已銷聲匿跡

42歲王小瑋現狀:現身法國,事業再登巔峰,前夫王小海已銷聲匿跡

削桐作琴
2026-05-17 19:48:07
楊振寧離世剛半年,遺孀翁帆近照曝光,變化太大,網友不敢認

楊振寧離世剛半年,遺孀翁帆近照曝光,變化太大,網友不敢認

豬小艷吖
2026-05-19 08:42:50
乘客要求網約車進車庫接人,女司機當場取消訂單,不給他投訴的機會

乘客要求網約車進車庫接人,女司機當場取消訂單,不給他投訴的機會

網約車觀察室
2026-05-18 09:59:44
他若不死必是十大元帥之首?毛主席:他比我厲害十倍

他若不死必是十大元帥之首?毛主席:他比我厲害十倍

小豫講故事
2026-05-04 06:00:15
小S公開爆料!喪妻1年的具俊曄大變樣,現狀和你想的完全不一樣

小S公開爆料!喪妻1年的具俊曄大變樣,現狀和你想的完全不一樣

橙星文娛
2026-04-14 10:08:59
中國女足新一期大名單三名門將全換,北京女足兩門將入選

中國女足新一期大名單三名門將全換,北京女足兩門將入選

懂球帝
2026-05-19 13:12:06
伊朗“全民備戰”,主持人演播室內直播開火 也有人輕聲說:不要戰爭

伊朗“全民備戰”,主持人演播室內直播開火 也有人輕聲說:不要戰爭

紅星新聞
2026-05-19 13:35:47
吳柳芳為家鄉柳州捐款2萬:一整晚沒睡著,能幫一點是一點

吳柳芳為家鄉柳州捐款2萬:一整晚沒睡著,能幫一點是一點

懂球帝
2026-05-19 15:05:07
沉默百天,上海大廠二次元旗艦倒在周年前

沉默百天,上海大廠二次元旗艦倒在周年前

競核
2026-05-18 19:10:13
紀委大數據有多厲害?這幾類行為一查一個準,公職人員別再僥幸

紀委大數據有多厲害?這幾類行為一查一個準,公職人員別再僥幸

細說職場
2026-05-18 09:37:45
京東官宣今年618從5月30日晚8點開始,未來有望實現包裹全流程無人配送直達用戶手中

京東官宣今年618從5月30日晚8點開始,未來有望實現包裹全流程無人配送直達用戶手中

極目新聞
2026-05-18 16:25:23
官方:阿爾卡拉斯出任螞蟻國際全球品牌大使

官方:阿爾卡拉斯出任螞蟻國際全球品牌大使

懂球帝
2026-05-19 14:48:22
兒子想做床蠶絲被,武漢一家三口網購1.2萬只蠶寶寶!媽媽崩潰:養蠶養到想報警!客廳都是蠶房子,每天喂三四十斤桑葉,一邊害怕一邊收拾

兒子想做床蠶絲被,武漢一家三口網購1.2萬只蠶寶寶!媽媽崩潰:養蠶養到想報警!客廳都是蠶房子,每天喂三四十斤桑葉,一邊害怕一邊收拾

三湘都市報
2026-05-19 13:35:33
北約戰機在愛沙尼亞擊落一架烏克蘭無人機

北約戰機在愛沙尼亞擊落一架烏克蘭無人機

新華社
2026-05-19 21:10:04
驚現!8000億龍頭V型反轉水下拉升11%!又一萬億風口"Token工廠"落地,連續20cm漲停!

驚現!8000億龍頭V型反轉水下拉升11%!又一萬億風口"Token工廠"落地,連續20cm漲停!

雪球
2026-05-19 16:33:08
2026-05-19 21:52:50
可達鴨面面觀
可達鴨面面觀
不看新聞就頭疼,看了更疼
1662文章數 158321關注度
往期回顧 全部

科技要聞

馬斯克敗訴,法院判他起訴OpenAI太晚了

頭條要聞

媒體:特朗普為何拋涉臺"四不"說法 魯比奧解釋清楚了

頭條要聞

媒體:特朗普為何拋涉臺"四不"說法 魯比奧解釋清楚了

體育要聞

文班亞馬:沒拿到MVP,就證明自己是MVP

娛樂要聞

姚晨刪博難平眾怒,為什么她還能蹦噠

財經要聞

從賣流量到賣Token,運營商算力生意破局

汽車要聞

煥新極氪009上市41.38萬起 齊家版讓MPV回歸家庭

態度原創

教育
游戲
數碼
親子
公開課

教育要聞

綿陽三臺發布2026年義務教育招生公告(附劃片范圍)

《極限競速:地平線6》Steam在線峰值超20萬

數碼要聞

折疊屏iPad或將采用與首款折疊屏iPhone相同無折痕鉸鏈設計

親子要聞

安慶市婦計中心舉辦“科學喂養為愛續航”母乳喂養日主題活動

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版