歡迎星標(biāo) 果殼硬科技
Nature 最新發(fā)表了一篇題為 General scales unlock AI evaluation with explanatory and predictive power(通用量表解鎖兼具解釋力與預(yù)測(cè)力的 AI 評(píng)估)的研究論文。研究團(tuán)隊(duì)由來自普林斯頓大學(xué)、劍橋大學(xué)、微軟研究院、OpenAI、DeepSeek、Meta、瓦倫西亞理工大學(xué)等機(jī)構(gòu)的 26 位名學(xué)者和工程師。
第一作者和通訊作者周樂鑫在身份信息中同時(shí)注明了四家機(jī)構(gòu):普林斯頓、劍橋大學(xué)、微軟亞洲研究院和瓦倫西亞理工大學(xué)。通訊作者則包括微軟亞洲研究院謝幸和劍橋大學(xué) José Hernández-Orallo。
這是近年來規(guī)模最大、系統(tǒng)性最強(qiáng)的 AI 評(píng)估方法論研究之一。
兩年兩篇 Nature,第一作者是個(gè) 00 后
這已經(jīng)是周樂鑫兩年之內(nèi),第二次在 Nature 上發(fā)表論文了。
2024 年 9 月,年僅 23 歲的周樂鑫作為第一作者在 Nature 發(fā)表了他的第一篇論文:Larger and more instructable language models become less reliable(更大且更易于指導(dǎo)的語言模型變得不那么可靠了)。
這篇論文拋出了一個(gè)讓當(dāng)時(shí)整個(gè) AI 圈都炸鍋了的結(jié)論:更大、更新的 AI 模型,反而更不可靠。當(dāng)時(shí)他和團(tuán)隊(duì)分析了 GPT、LLaMA、BLOOM 等多個(gè)主流 AI 模型系列,發(fā)現(xiàn)隨著模型規(guī)模變大并加入更多人類反饋訓(xùn)練,它們?cè)诨卮鹩脩魡栴}時(shí)反而變得更容易給出錯(cuò)誤答案。更詭異的是,新一代模型(如 GPT-4)在面對(duì)超出自己能力范圍的問題時(shí),不再像老模型那樣“知道自己不會(huì)”而選擇回避,而是更傾向于硬著頭皮給出錯(cuò)誤答案。研究者把這種現(xiàn)象稱為“過度自信”。
這篇論文一經(jīng)發(fā)表,立即引發(fā)熱議,僅 Reddit 上就有超過 20 萬網(wǎng)友圍觀討論。
剛發(fā)的這篇新論文說了什么?
繼上次論文發(fā)表不到一年,周樂鑫帶著他的第二篇 Nature 論文回來了。這次,他不再只是指出問題,而是提出了一套完整的解決方案。
這次的論文標(biāo)題是《通用量表解鎖 AI 評(píng)估的解釋力和預(yù)測(cè)力》,論文一開篇就指出了一個(gè)根本性問題:現(xiàn)有的 AI 評(píng)估方式,就是讓 AI 做題然后打分,其實(shí)根本說不清 AI 到底“有什么能力”。
比如你看到某個(gè) AI 在數(shù)學(xué)測(cè)試上考了 90 分,這個(gè)數(shù)字能告訴你什么?什么也不能。
你無法據(jù)此推斷它會(huì)不會(huì)做另一道數(shù)學(xué)題,更無法預(yù)測(cè)它能不能搞定閱讀理解、代碼編寫、圖像分析等其他任務(wù)。原因很簡單:分?jǐn)?shù)只是分?jǐn)?shù),它背后是能力、考試難度、題目類型等多個(gè)因素混合的產(chǎn)物,根本無法拆解。
這就是為什么很多人說“AI 評(píng)估是個(gè)黑箱”:你不知道 AI 為什么對(duì),也不清楚它為什么錯(cuò)。
周樂鑫團(tuán)隊(duì)的解決方案是:給每道題目和每個(gè) AI 都打上標(biāo)簽,建立一套統(tǒng)一的“度量衡”。
具體來說,他們?cè)O(shè)計(jì)了一套包含18 個(gè)維度的“通用量表”。這 18 把“尺子”大致分為三類:
元素能力量表(11 個(gè)):包括注意力掃描、內(nèi)容表達(dá)、概念學(xué)習(xí)與抽象、邏輯推理、元認(rèn)知(知道自己會(huì)不會(huì))、思維建模等基礎(chǔ)能力。
知識(shí)量表(5 個(gè)):涵蓋常識(shí)、自然科學(xué)、應(yīng)用科學(xué)、形式科學(xué)、社會(huì)科學(xué)等領(lǐng)域知識(shí)。
難度輔助量表(2 個(gè)):題目是否“非主流”(越非主流越難)、題目長度。
舉個(gè)例子,用他們的方法,一道數(shù)學(xué)題會(huì)被標(biāo)注為:需要多高的邏輯推理能力、需要什么領(lǐng)域的知識(shí)、題目是否“非主流”、題目有多長等等。然后讓 AI 模型也用同樣的維度被標(biāo)注為“能力畫像”——比如某個(gè)模型的邏輯推理是 4.5 級(jí)、知識(shí)是 3.8 級(jí)。當(dāng)把兩者一對(duì)比,就能預(yù)測(cè) AI 能不能做這道題。
這套方法的核心思路是,不僅給 AI 的能力打分,也給每道考題的難度打標(biāo)簽,然后把兩者放在同一套標(biāo)準(zhǔn)下比較。
研究者用 15 個(gè)主流 AI 模型和 20 個(gè)基準(zhǔn)測(cè)試(涵蓋數(shù)學(xué)、閱讀理解、科學(xué)、語言等多個(gè)領(lǐng)域)做了大規(guī)模實(shí)驗(yàn),總共分析了超過 16000 道題目和接近 30 萬條標(biāo)注數(shù)據(jù)。結(jié)果令人振奮:
在分布內(nèi)預(yù)測(cè)(測(cè)試題目與訓(xùn)練題目來自同一來源):基于量表的預(yù)測(cè)器達(dá)到了0.84 的 AUROC(區(qū)分成功和失敗的能力指標(biāo))和僅0.01 的校準(zhǔn)誤差。這意味著預(yù)測(cè) AI 答對(duì)某道題的概率時(shí),不僅判斷準(zhǔn)確,而且概率估計(jì)非常可靠。
在任務(wù)分布外預(yù)測(cè)(預(yù)測(cè) AI 在全新任務(wù)上的表現(xiàn)):準(zhǔn)確率僅略微下降到 0.81,依然遠(yuǎn)優(yōu)于其他方法。
在基準(zhǔn)分布外預(yù)測(cè)(預(yù)測(cè) AI 在從未見過的全新基準(zhǔn)上的表現(xiàn)):準(zhǔn)確率保持在 0.75。
作為對(duì)比,基于文本嵌入(如 GloVe)或直接微調(diào)語言模型的預(yù)測(cè)方法,在這些任務(wù)上的表現(xiàn)都明顯更低,特別是在分布外預(yù)測(cè)時(shí)下降嚴(yán)重。這說明新方法具有更強(qiáng)的泛化能力,不容易“死記硬背”訓(xùn)練數(shù)據(jù)中的模式。
![]()
用于解釋與預(yù)測(cè)新 AI 系統(tǒng)及基準(zhǔn)測(cè)試性能的流程:上半部分為系統(tǒng)流程:在 ADeLe 套件運(yùn)行新 AI 系統(tǒng),繪制維度特征曲線并提取能力畫像,可選訓(xùn)練簡易評(píng)估器;下半部分為任務(wù)流程:用標(biāo)準(zhǔn)大模型將 DeLeAn 細(xì)則應(yīng)用于新任務(wù),生成需求直方圖與畫像,可依托評(píng)估器預(yù)測(cè)系統(tǒng)在新任務(wù)上的表現(xiàn)。
還發(fā)現(xiàn)了什么?
除了提出評(píng)估方法,論文還揭示了一些出人意料的結(jié)論。
首先,很多基準(zhǔn)測(cè)試都在“作弊”。研究者分析了 20 個(gè)主流 AI 基準(zhǔn)測(cè)試,發(fā)現(xiàn)大多數(shù)測(cè)試根本沒有測(cè)量它們聲稱要測(cè)量的東西。比如某個(gè)數(shù)學(xué)考試聲稱測(cè)試“數(shù)學(xué)推理能力”,但實(shí)際上對(duì)推理能力的要求并不高,反而對(duì)特定領(lǐng)域知識(shí)的要求很高。換句話說,這些考試可能只是在測(cè)試 AI“會(huì)不會(huì)做這道題”,而不是它具不具備真正的能力。更嚴(yán)重的是,很多測(cè)試存在“污染”問題——AI 在訓(xùn)練時(shí)可能見過類似題目,導(dǎo)致分?jǐn)?shù)虛高。
其次,模型越大不等于越好。研究者發(fā)現(xiàn)了大模型縮放中的“邊際遞減”效應(yīng)。和2024年的論文中“模型越大越差”相比,周樂鑫修正了他的表述:模型越大,收益越小,且訓(xùn)練方法可能比規(guī)模更關(guān)鍵。當(dāng)模型參數(shù)量已經(jīng)很大時(shí)(如超過70億參數(shù)),繼續(xù)增大帶來的能力提升變得越來越小。更重要的是,某些采用“思維鏈”技術(shù)的模型(即在給出答案前先展示思考過程,如OpenAI o1和DeepSeek-R1),在邏輯推理上的提升遠(yuǎn)超單純?cè)黾訁?shù)。 這篇論文為什么重要?
說起這篇論文解決的是一個(gè)“誰都知道但沒人解決得了”的問題:到底怎么才能“看清”一個(gè) AI 的能力?這個(gè)問題直接關(guān)系到 AI 能否安全可靠地進(jìn)入真實(shí)應(yīng)用場(chǎng)景。
現(xiàn)在的行業(yè)慣例是搞一個(gè)基準(zhǔn)測(cè)試(比如數(shù)學(xué)題庫),讓 AI 去做,得個(gè)分?jǐn)?shù),然后宣布“我們公司又贏了”。但這種評(píng)估方式有三個(gè)致命問題:
第一,說不清 AI 為什么輸。分?jǐn)?shù)無法告訴你 AI 到底缺什么能力。
第二,不同測(cè)試沒法比。數(shù)學(xué) 90 分和閱讀理解 90 分,能一樣嗎?
第三,無法預(yù)測(cè)新任務(wù)的表現(xiàn)。你知道 AI 能做會(huì)數(shù)學(xué)題,但你知道它能不能寫代碼嗎?
而周樂鑫團(tuán)隊(duì)提出的這套方法,相當(dāng)于給 AI 能力裝了一把“標(biāo)尺”,讓以上三個(gè)問題都得到了實(shí)質(zhì)性解決。研究者甚至用它發(fā)現(xiàn)了大模型縮放中的“邊際遞減”效應(yīng)。
這套方法不僅可以用來更科學(xué)地評(píng)估 AI,還能在實(shí)際部署中發(fā)揮作用:企業(yè)可以提前判斷某個(gè) AI 是否適合某項(xiàng)任務(wù),安全部門可以預(yù)判 AI 可能在哪里“翻車”。
這篇論文牛在哪里?
這不是一個(gè)隨隨便便的“AI 刷榜”的研究。
第一,它解決了一個(gè)真實(shí)存在的大問題。AI 評(píng)測(cè)的困境不是紙上談兵,AI 的可信度和可解釋性是全行業(yè)關(guān)注的問題,各國政府、企業(yè)、監(jiān)管機(jī)構(gòu)都在問:我們?cè)趺粗酪粋€(gè) AI 系統(tǒng)到底能不能信任?這篇論文提供了一個(gè)可能的答案框架。
其次,它交付了可操作的工具。論文不僅有概念,還有實(shí)物:18 個(gè)維度的詳細(xì)評(píng)分標(biāo)準(zhǔn)(DeLeAn)、1.6 萬道已標(biāo)注的數(shù)據(jù)庫(ADeLe)、開源代碼和平臺(tái),這些資源現(xiàn)在都已經(jīng)開源,其他團(tuán)隊(duì)看完論文就能直接用。代碼和數(shù)據(jù)開放平臺(tái)在這:https://github.com/Kinds-of-Intelligence-CFI/ADELE
同時(shí),它的實(shí)證結(jié)果很有說服力,人類與 AI 標(biāo)注一致性 0.86、預(yù)測(cè)模型在新測(cè)試集上遠(yuǎn)超基線。但論文也并非沒有局限,18 個(gè)維度是否就完備了?GPT-4o 作為“評(píng)分員”會(huì)不會(huì)有系統(tǒng)性偏差?未來 AI 超越當(dāng)前量表上限(5+)后如何擴(kuò)展?作者們也在文中坦誠討論了這些問題,并給出了開放平臺(tái)供社區(qū)共同迭代。
![]()
一作周樂鑫,圖片來源:周樂鑫個(gè)人網(wǎng)頁
一作兼通訊的周樂鑫,目前是普林斯頓大學(xué)計(jì)算機(jī)科學(xué)系的博士研究生,師從 Peter Henderson 教授,同時(shí)與認(rèn)知科學(xué)專家 Tom Griffiths 教授緊密合作。他的研究興趣橫跨計(jì)算機(jī)科學(xué)和認(rèn)知科學(xué)。曾在多家頂級(jí)機(jī)構(gòu),包括微軟亞洲研究院、OpenAI、Meta AI、歐盟委員會(huì)實(shí)習(xí),這些經(jīng)歷讓他既了解學(xué)術(shù)前沿,也清楚產(chǎn)業(yè)界和政策制定者的實(shí)際需求。
在 AI 發(fā)展快速迭代時(shí),這是第一次有人系統(tǒng)性地、大規(guī)模地、可復(fù)現(xiàn)地把 AI 評(píng)測(cè)從“競(jìng)技體育”變成了“標(biāo)準(zhǔn)計(jì)量”。過去我們看排行榜,就像看奧運(yùn)會(huì)成績——只告訴你誰跑得快,不告訴你為什么。現(xiàn)在,我們終于有了一張“體質(zhì)健康標(biāo)準(zhǔn)”表。
對(duì)于用戶來說,這意味著未來當(dāng)你看到一個(gè) AI 產(chǎn)品的評(píng)測(cè)報(bào)告時(shí),可能不再是“綜合得分 92.3”,可能是一張清晰的畫像:
“本模型在邏輯推理能力上相當(dāng)于需求等級(jí) 4.1,適合處理中等復(fù)雜度的法律文書分析;在開放域知識(shí)上能力等級(jí) 3.8,不建議用于高專精度的醫(yī)學(xué)診斷。”
這不正是我們一直想要的“可信 AI”的第一步嗎?
論文信息
文章標(biāo)題:General scales unlock AI evaluation with explanatory and predictive power
發(fā)布期刊:Nature
發(fā)布時(shí)間:2026年4月1日
吳歐|編輯
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.