无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

前谷歌DeepMind研究員:當下AI評測皆“刻舟求劍”,只能被動測試模型已具備的能力

0
分享至

日前,Google DeepMind 研究員 Lun Wang 宣布離職,并在一篇長文中徹底否定了現有的 AI 評測路線。

其表示,目前的評測系統全都在“刻舟求劍”,只能被動測試模型已經具備的能力,根本猜不到下一代模型會突然演化出什么新本事。比起數據、算力和架構,落后的評測體系已經成了卡住 AI 往前走的最大瓶頸。



以下是 Lun Wang 發布的長文譯文,原標題《Your Evals Will Break and You Won't See It Coming》:

我們很擅長評估現有的模型。但對于我們即將構建的模型——尤其是那些跨入新能力范式的模型——我們的評估能力就要差得多了。

大多數基準測試、安全評估和紅隊測試協議都隱含地假設:下一個模型只是當前模型的更強版本。但如果它是一個不同類型的東西,我們整個評估基礎設施就會悄無聲息地失靈。

我認為,這是我們在理解大語言模型過程中尚未解決的最重要的問題。而答案在于:評估——而非訓練、架構或數據——將是下一個能力躍升的瓶頸。我來解釋一下原因。

失效模式:質的變化

Wei 等人(2022)記錄了所謂的“涌現能力”——少樣本提示下的任務表現、思維鏈推理能力的提升、指令遵循能力——這些能力僅在更大規模的模型上才會出現。Grokking(Power 等人,2022)展示了另一種相關但不同的現象:網絡在長時間記憶訓練數據后突然實現泛化,這是一種在訓練時間尺度上發生的動態轉變,而非跨規模尺度的變化(Liu 等人,2022)。現象不同,但對評估的啟示是相同的:標準指標未能預見到這種質的變化。

這里有一個重要的反方觀點:Schaeffer 等人(2023)表明,大語言模型能力的許多明顯“躍升”其實是由不連續的指標(如精確匹配準確率)造成的假象。如果換成連續指標,能力通常呈現平滑的縮放趨勢。

我不認為這就解決了問題——在某種程度上,它反而讓我的論點更尖銳了。如果我們連過去的某個轉變究竟是真正的質變還是指標造成的假象都分不清楚,那對于我們檢測下一次轉變的能力又意味著什么?無論哪種情況,評估基礎設施都可能讓我們措手不及——要么是因為系統本身發生了變化,要么是因為我們的指標從一開始就具有誤導性。

我們不知道該測量什么

在物理學中,理解相變通常意味著要識別出一個序參量——一個能夠區分不同相態的宏觀量,它在臨界點附近會改變其取值或標度行為。沒有序參量,你就無法判斷自己離邊界有多近,甚至不知道邊界是否存在。

對于部署規模的大語言模型,我們還沒有這樣的序參量——至少對于能力躍遷來說沒有。雖然在受控環境下已取得進展(詳見下文),但對于我們實際正在上線的系統,我們基本上是盲人摸象。

我們使用的每一個基準測試——GPQA、SWE-bench、ARC-AGI、人類終極考試——衡量的都是模型當前能做什么。它們在一個既定的范式中是有用的,但對于范式轉變之后會發生什么,它們提供的證據非常薄弱。當一種新的能力出現,而沒有任何基準測試覆蓋它時,我們只能事后匆忙構建評估。我們在思維鏈能力上就看到了類似的情況:一旦這種激發方法成為標準,一些舊的推理基準的診斷能力就大大降低,整個領域不得不轉向更難的評估。這種情況還會重演。

具體來說:想象一個模型,在某個規模下,它發展出了策略性地隱瞞信息以實現目標的能力——不完全是撒謊,而是有選擇地遺漏事實,以某種方式引導對話走向其訓練過程偶然強化的結果。你現有的誠實度基準測試無法捕捉到這一點,因為它們測試的是事實準確性,而不是策略性遺漏。你的安全分類器也不會標記它,因為單個輸出在技術上都可能是真實的。這種能力是新的,這種失效模式也是新的,你的評估套件中沒有任何一項是設計用來檢測它的。你會一直在監控錯誤的方向,而自己卻渾然不覺。

這就是核心問題:我們整個評估基礎設施在結構上是被動響應式的。我們總是在系統發生變化之后才去衡量它。我們永遠無法預測變化的發生。

評估先于一切

這個問題比聽起來更嚴重,原因很簡單:如果你能正確評估,你就能正確訓練。

訓練就是優化,而優化的好壞取決于它的目標。目標來自評估。如果你知道該測量什么——如果你能預測這些測量結果在規模化過程中如何變化——那么你就能設計出正確的訓練目標,構建正確的安全層,做出明智的規模化決策,進行強化學習人類反饋,使其針對正確的行為屬性,而不是那些在下一個階段邊界上就會古德哈特定律失效的代理指標。

反之亦然:如果你的評估是針對錯誤范式而校準的,那么其下游的一切都是錯的。訓練信號、安全指標、規模化決策——全是錯的,而等你意識到時為時已晚。

這就是為什么我相信評估是下一個能力躍升的瓶頸。那些能夠學會領先于曲線進行評估的實驗室,將是能夠安全規模化的實驗室。那些做不到的,則會被突如其來的變化打個措手不及。

那我們該怎么辦?

這個領域需要改變投入的方向。不是要拋棄現有的評估方法——它們仍然有效——而是要建立能夠預測它們何時會失效的基礎設施。

尋找序參量。哪些量能夠預示質的轉變——無論是能力上的、對齊上的,還是行為特征上的?這不僅僅是一個理論上的愿望。Shan、Li 和 Sompolinsky(《美國國家科學院院刊》,2026)利用統計力學推導出了持續學習場景下深度網絡的序參量,而這些序參量確實能夠預測學習能力中的相變。Nanda 等人(2023)利用機制可解釋性找到了能夠預測grokking現象發生前的“進展度量”——即在可見的性能躍升之前就出現的內部結構變化。挑戰在于如何將這些方法從受控環境擴展到規模化的大語言模型上。如果我們知道該測量什么,我們就會知道該關注什么。

構建能夠檢測自身失效——并隨之演化的評估系統。隨著模型變得越來越具有代理能力,這個問題變得日益緊迫。那些能夠編寫代碼、運行實驗、生成數據、輔助訓練或評估流程的系統,正在讓靜態的評估變得越來越脆弱。如果模型能力的提升速度快于人類評估團隊更新基準測試的速度,那么評估就必須變得具有自適應性。

具體來說:

  • 監控元信號——基準測試分數的分布是否在改變特征?評估之間的相關性結構是否在發生變化?模型是否正在發展出與你測量維度正交的能力?
  • 追蹤所有指標的縮放曲線——不僅僅是損失函數,還包括推理深度、工具使用復雜度、欺騙性能力——并在平滑趨勢出現斷裂時提高警惕。
  • 更大膽一點:構建自我演化的評估系統——利用模型去探測其他模型的評估系統,隨著能力變化自動生成新的測試用例,發現原始評估設計者從未預料到的失效模式。評估套件應該是一個活的系統,與它所衡量的模型共同演化,而不是一份為去年的前沿模型編寫的靜態檢查清單。

問題不在于我們的評估會不會被意外打臉——它們已經被打過很多次了,無論是被真正的相變,還是被我們自己的指標選擇所誤導。問題在于,我們能否預見到下一次意外的到來。就目前而言,我們做不到。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
王炸!知名企業總部將從北京遷至武漢!

王炸!知名企業總部將從北京遷至武漢!

越喬
2026-06-12 22:45:29
前體操冠軍吳柳芳再回應擦邊風波:“把債還完了,我才能把體面重新撿起來”;談及與管晨辰的爭執,吳柳芳表示:“我不會去恨一個人”

前體操冠軍吳柳芳再回應擦邊風波:“把債還完了,我才能把體面重新撿起來”;談及與管晨辰的爭執,吳柳芳表示:“我不會去恨一個人”

揚子晚報
2026-05-07 07:43:31
當你接觸的男人越多,就會明白:能夠給女人巨大情緒價值的男人,大部分在錢上是很摳門的,很有道理

當你接觸的男人越多,就會明白:能夠給女人巨大情緒價值的男人,大部分在錢上是很摳門的,很有道理

心理觀察局
2026-06-13 06:36:13
張雪“找馬老師借錢”,道盡千萬草根創業路

張雪“找馬老師借錢”,道盡千萬草根創業路

元淦恭說
2026-06-12 17:24:48
公牛接近敲定新任主教練

公牛接近敲定新任主教練

體壇周報
2026-06-13 08:23:20
二萬五千里長征到底犧牲多少人?為何長征后蔣介石沒有繼續追趕?

二萬五千里長征到底犧牲多少人?為何長征后蔣介石沒有繼續追趕?

老蝣說體育
2026-06-10 19:15:27
新加坡公開站隊!把南海廢紙當圣旨,釣魚島改叫尖閣,中新翻臉?

新加坡公開站隊!把南海廢紙當圣旨,釣魚島改叫尖閣,中新翻臉?

一曲一場談
2026-06-12 14:18:46
寧愿降級也要換賽道!中山大學轉專業名單火了,三大專業成重災區

寧愿降級也要換賽道!中山大學轉專業名單火了,三大專業成重災區

林林先生
2026-06-11 13:09:52
“衩都開到大腿根了,不怕丟人嗎?”高三家長旗袍送考,反被群嘲

“衩都開到大腿根了,不怕丟人嗎?”高三家長旗袍送考,反被群嘲

怪味歷史連連看
2026-06-10 17:37:26
故宮珍藏的清代皇室珍珠,為什么很多歪歪斜斜不夠圓潤?

故宮珍藏的清代皇室珍珠,為什么很多歪歪斜斜不夠圓潤?

收藏大視界
2026-06-12 23:26:52
C羅世界杯宣言:別急著談冠軍!真正的王者是在最艱難時刻誕生的

C羅世界杯宣言:別急著談冠軍!真正的王者是在最艱難時刻誕生的

體育閑話說
2026-06-13 09:47:12
官方:斯諾克三大賽將不再設立兩桿147獎金、單賽季百桿破百獎金

官方:斯諾克三大賽將不再設立兩桿147獎金、單賽季百桿破百獎金

懂球帝
2026-06-13 01:18:15
1952年薄一波反映葉帥情況,毛主席:他是有成績的,大家要理解他

1952年薄一波反映葉帥情況,毛主席:他是有成績的,大家要理解他

史之韻
2026-06-13 00:10:13
金龜子親口承認:退休金一個月8900,在北京真的不夠花

金龜子親口承認:退休金一個月8900,在北京真的不夠花

西樓知趣雜談
2026-06-10 17:48:35
20歲的越南女孩嫁到南京,7年后第一次回家,丈夫給了她15萬塊錢

20歲的越南女孩嫁到南京,7年后第一次回家,丈夫給了她15萬塊錢

流螢敘情
2025-04-27 09:55:18
中國軟件在政府采購活動中構成惡意串通 一年內被禁止參加政府采購活動

中國軟件在政府采購活動中構成惡意串通 一年內被禁止參加政府采購活動

證券時報
2026-06-12 22:14:11
親兄弟明算賬!見菲律賓防長被制裁:美國也不叫了,日本也不跳了

親兄弟明算賬!見菲律賓防長被制裁:美國也不叫了,日本也不跳了

舊窗老街
2026-06-12 22:37:00
口交、肛交等進入式性服務是賣淫行為嗎?最高院定調了!

口交、肛交等進入式性服務是賣淫行為嗎?最高院定調了!

黯泉
2026-06-02 11:54:54
韓媒:中國男足比捷克隊更強?他們在這種對抗下恐怕完全不適應

韓媒:中國男足比捷克隊更強?他們在這種對抗下恐怕完全不適應

夢憶之淺
2026-06-12 18:43:31
一碗隔夜米飯毒死7人?醫生警告:米飯盡量別這樣吃,比砒霜還毒

一碗隔夜米飯毒死7人?醫生警告:米飯盡量別這樣吃,比砒霜還毒

路醫生健康科普
2026-05-31 20:15:03
2026-06-13 11:52:49
可達鴨面面觀
可達鴨面面觀
不看新聞就頭疼,看了更疼
1682文章數 158421關注度
往期回顧 全部

科技要聞

SpaceX上市首日破2萬億美元,馬斯克再封神

頭條要聞

美國4比1大勝 美國主導比賽巴拉圭疲于奔命讓人意外

頭條要聞

美國4比1大勝 美國主導比賽巴拉圭疲于奔命讓人意外

體育要聞

東道主三戰不敗!美墨開門紅加拿大零的突破

娛樂要聞

12年情懷碎一地!跑男接連翻車

財經要聞

梁文鋒向左,楊植麟向右

汽車要聞

標配激光雷達/雙動力可選 昊鉑S600限時售17.99萬起

態度原創

教育
家居
親子
公開課
軍事航空

教育要聞

有變:2026山東高考招生有5大變化!

家居要聞

空間微調 移形換境

親子要聞

Nature Cell Biology|牛曉宇團隊揭示女性胎兒生殖道分段特化的時空機制

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊外長披露伊美諒解備忘錄草案部分內容

無障礙瀏覽 進入關懷版