无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

多變量神經縮放定律邁向大一統:Mila聯手DeepMind提出UNSL

0
分享至



機器之心編輯部

過去的大模型 scaling law 通常回答的是:當模型參數量、數據量和訓練計算量增加后,loss 會如何下降。

但真實訓練過程要復雜得多。模型性能不只受參數量和數據量影響,還會受到訓練步數、處理 token 數、數據是否被重復使用、batch size、學習率、初始化尺度,以及推理時計算量等因素影響。

更麻煩的是,這些變量之間并不是簡單相加關系:某個變量可能在特定區間成為瓶頸,也可能讓性能曲線出現階段性「拐點」,甚至帶來非單調變化。比如,訓練數據太少或訓練超過一定 epoch 后可能出現過擬合;學習率或初始化權重標準差過大,也可能反過來損害性能。

針對這些限制,來自蒙特利爾大學 Mila、Google DeepMind 的研究者提出了一種全新的函數形式,稱為統一神經縮放定律(Unified Neural Scaling Law,簡稱 UNSL),它把多變量同時變化、拐點、瓶頸、過擬合以及超參數帶來的反向作用統一納入 scaling law。

所以,這篇論文的主張可以概括為:神經網絡的 scaling behavior 不應該只用「參數量 — 數據量 —loss」這樣的二維或三維公式描述,而應該用一個能同時處理多變量、階段性轉折、性能瓶頸、過擬合和超參數影響的統一函數形式。



  • 論文標題:Unified Neural Scaling Laws
  • 論文鏈接:https://arxiv.org/pdf/2605.26248

論文一作 Ethan Caballero 用一段視頻,展示了「統一神經縮放定律」準確建模和外推人工神經網絡在多個變量同時變化時呈現出的多變量縮放定律。



UNSL 的函數形式

UNSL 的完整架構是由多個分層函數嵌套而成的,它在多維對數空間中將性能建模為一組平滑連接的超平面:



其中 Q 定義如下:



R 定義如下:



K 為多變量斷裂神經縮放定律(Multivariate Broken Neural Scaling Law,MBNSL),定義如下:



整體上可以像下面這樣理解:

在函數形式上,UNSL 不是簡單把參數量、數據量和訓練步數塞進一個冪律公式,而是采用了一套分層結構。

底層的 K 是多變量 broken scaling law,用來描述 log-log 空間中由多個平滑連接超平面構成的 scaling 曲面;其中的 hyperbreak 對應性能曲面中的階段性轉折。

再往上一層,R 將整體 scaling 行為拆成非瓶頸組件和瓶頸組件,分別描述多變量共同作用下的整體趨勢,以及某一單獨變量限制最終性能的情況。瓶頸組件表示,當其他變量都足夠好時,某一個變量仍可能單獨限制性能。例如模型夠大、訓練夠久,但數據量不足,數據量就成為瓶頸;或者數據足夠多,但模型太小,參數量成為瓶頸。

Q 則進一步引入學習率、初始化尺度等超參數可能帶來的反向作用。

最外層公式再加入不可約性能極限、評價指標導致的壞表現極限,以及訓練超過一定 epoch 后可能出現的過擬合項。

下圖為統一神經縮放定律(Unified Neural Scaling Law,UNSL)的示意圖,包含兩個輸入維度 x_1 和 x_2;中間圖和右側圖分別展示了它在各個輸入維度上的投影。

在這個具體例子中,一個 UNSL 包含 3 個 hyperbreak,也就是圖中用更亮的虛線標出的橙色、黃色和綠色轉折結構。Hyperbreak 可以理解為 scaling law 中的「階段轉折」。例如一開始增加數據帶來明顯收益,過了某個區間收益下降,這個轉折就是一種 break;多變量情況下,它不再是一點,而是高維空間里的轉折面。

其中,綠色 hyperbreak 由非瓶頸組件產生;橙色 hyperbreak 由 x_1 瓶頸組件產生;黃色 hyperbreak 由 x_2 瓶頸組件產生。



實驗結果

在實驗部分,研究者對比了以下幾類函數形式。

第一類是已有 scaling law 形式,包括 CF 和 DC。CF 接近 Kaplan、Chinchilla 一類常見形式,主要描述參數量、訓練數據量或訓練 token 數與 loss 之間的關系。DC 來自 Muennighoff 等人的三變量函數形式,考慮參數量、訓練 token 數和訓練數據集大小。

第二類是作者設計的消融版本:A1、A2、A3。它們可以理解為 UNSL 的逐步簡化版。其中 A1 去掉了 additive symmetry,A2 加入了性能下限項,A3 進一步加入部分反向作用結構;完整 UNSL 包含全部 additive symmetry、瓶頸組件、非瓶頸組件、過擬合項和超參數反向作用項。

接下來,研究者主要做了視覺和語言兩大類實驗。

在視覺任務中,研究者評估了下游少樣本圖像分類,包括 Birds 200、Cars 196 和 ImageNet。模型包括 ViT、MLP-Mixer 和 BiT,它們在 JFT-300M 子集上預訓練。變量包括訓練數據集大小、訓練步數,以及在三變量設置中的模型參數量。結果顯示,在下游圖像識別任務中,UNSL 在 60.87% 的任務上取得最好的外推表現,而下一個最好的 A3 是 21.74%

在語言任務中,研究者評估了上游和下游語言表現,變量包括模型參數量、處理 token 數、訓練數據 token 數等。下游任務包括 LAMBADA 和 CSR,其中 CSR 是 HellaSwag、ARC、PIQA、WinoGrande、OpenBookQA、SIQA、BoolQ 等常識推理任務的零樣本平均錯誤率。結果顯示,在語言任務中,UNSL 在 88.89% 的任務上外推最好,而下一個最好的 A2 是 11.11%



更細化地講,視覺部分實驗分為二變量和三變量兩類:二變量設置中同時變化的是訓練數據集大小和訓練步數,三變量設置中同時變化的是訓練數據集大小、訓練步數和模型參數量。

在三變量視覺實驗中,UNSL 的優勢非常直接。以 Birds 和 ImageNet 為例,UNSL 都取得最低 RMSLE。尤其和 DC 相比,誤差下降非常明顯,說明只靠傳統三變量形式不足以描述視覺模型在參數量、訓練數據和訓練步數同時變化時的外推趨勢。



語言部分實驗同時覆蓋上游語言建模表現和下游任務表現。三變量語言實驗使用 Muennighoff 等人的 scaling behavior 數據,三個同時變化的維度是 模型參數量、處理過的 token 數、訓練數據集中的 token 數。二變量語言實驗則關注模型參數量與訓練步數 / 處理 token 數的關系。

在三變量語言實驗中,UNSL 的 RMSLE 明顯低于 A3、A2 、A1 和 DC。也就是說,在這個設置下,UNSL 的外推誤差大約只有 DC 的八分之一左右。



二變量語言實驗也體現了類似趨勢。在下表 5 中,UNSL 在大多數任務上取得最低誤差。



除了主文中的視覺和語言任務,論文還在附錄中給出更多場景,試圖說明 UNSL 的適用范圍更廣。UNSL 可以外推強化學習中的多變量 scaling behavior,可以處理寬度和深度同時變化的 scaling,還可以把 batch size 作為輸入變量;另外,UNSL 還被用于學習率、初始化權重標準差和訓練步數同時變化的三變量 scaling behavior。

一系列實驗結果表明,UNSL 的優勢不在于簡單擬合歷史數據,而在于它能在多變量同時變化的情況下,更穩定地預測模型性能隨規模擴展的走勢

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
我去醫院探望植物人嫂子,護工偷偷塞來字條:去查上周的監控錄像

我去醫院探望植物人嫂子,護工偷偷塞來字條:去查上周的監控錄像

紙鳶奇譚
2026-05-21 17:44:37
創造歷史,鐮田大地成為首位奪得兩座歐戰獎杯的日本球員

創造歷史,鐮田大地成為首位奪得兩座歐戰獎杯的日本球員

懂球帝
2026-05-28 11:45:14
太嚇人了!一男子在飛機起飛后,欲拉開應急艙門,被幾名乘客阻攔

太嚇人了!一男子在飛機起飛后,欲拉開應急艙門,被幾名乘客阻攔

川渝視覺
2026-05-27 21:40:37
“原拆原建”來了?中央動真格,人民日報發聲:首批項目成功打樣

“原拆原建”來了?中央動真格,人民日報發聲:首批項目成功打樣

未來展望
2026-05-28 03:29:57
美政府被曝叫停對委代總統的刑事調查

美政府被曝叫停對委代總統的刑事調查

新華社
2026-05-28 14:41:08
一天中“很”養生的兩個小時,你在干嘛?很多人都做錯了

一天中“很”養生的兩個小時,你在干嘛?很多人都做錯了

芹姐說生活
2026-05-26 22:48:09
公安部:當前出警必須佩戴和使用執法記錄儀 接報案信息必須網上登記

公安部:當前出警必須佩戴和使用執法記錄儀 接報案信息必須網上登記

紅星新聞
2026-05-27 11:30:42
中方斷供稀土4個月,日本高官心急如焚來中國,想見個處長都很難

中方斷供稀土4個月,日本高官心急如焚來中國,想見個處長都很難

漫步獨行俠
2026-05-27 08:14:20
科爾帕奇承認指錯球印并致歉,稱兩人私交較好但王欣瑜受團隊煽動

科爾帕奇承認指錯球印并致歉,稱兩人私交較好但王欣瑜受團隊煽動

網球之家
2026-05-28 10:19:42
賴清德大勢已去?臺獨政黨公開服軟,愿意回歸中國,條件只有一個

賴清德大勢已去?臺獨政黨公開服軟,愿意回歸中國,條件只有一個

緊跟時代脈搏
2026-05-28 13:06:19
朱芳雨談引進哈登:不惜一切辦法,這對廣東甚至CBA都有很大提升

朱芳雨談引進哈登:不惜一切辦法,這對廣東甚至CBA都有很大提升

多特體育說
2026-05-27 15:11:03
已確認!預計有2個臺風影響上海,不排除直接登陸

已確認!預計有2個臺風影響上海,不排除直接登陸

上海閔行
2026-05-28 14:05:26
Claude Code官方桌面端正式發布,夯爆了!

Claude Code官方桌面端正式發布,夯爆了!

新浪財經
2026-05-28 11:59:12
華為韜定律到底含金量如何?現在的輿論環境,就是不讓人說實話

華為韜定律到底含金量如何?現在的輿論環境,就是不讓人說實話

擔撲
2026-05-27 16:17:14
搜狐餓不死,也難長大,張朝陽為什么?丨正經深度

搜狐餓不死,也難長大,張朝陽為什么?丨正經深度

正經社
2026-05-26 15:33:14
社死現場!女子白拿外賣遭全網圍觀,播放破2000萬,單位火速處置

社死現場!女子白拿外賣遭全網圍觀,播放破2000萬,單位火速處置

瀲滟晴方DAY
2026-05-27 10:00:42
NBA追加惡犯引輿論風暴!美國球迷怒斥:拽頭發都不回看!

NBA追加惡犯引輿論風暴!美國球迷怒斥:拽頭發都不回看!

體育新角度
2026-05-28 11:03:31
女子稱車禍住院遭男醫生侵犯,警方調查后未立案,涉事醫生已被開除

女子稱車禍住院遭男醫生侵犯,警方調查后未立案,涉事醫生已被開除

極目新聞
2026-05-27 20:39:31
美國發話也不行,中方正式通告全球:打日本,中國具備“正當性”

美國發話也不行,中方正式通告全球:打日本,中國具備“正當性”

鳳語談
2026-05-28 12:13:58
貝弗利:關于SGA的吹罰或許有爭議,但喬丹、科比都會造犯規

貝弗利:關于SGA的吹罰或許有爭議,但喬丹、科比都會造犯規

懂球帝
2026-05-28 15:37:13
2026-05-28 15:52:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
13102文章數 142653關注度
往期回顧 全部

科技要聞

臺積電3納米下半年漲價15% 明年或再漲10%

頭條要聞

20萬飛天茅臺搭售40萬黔茅酒 老板參加"峰會"后稱被耍

頭條要聞

20萬飛天茅臺搭售40萬黔茅酒 老板參加"峰會"后稱被耍

體育要聞

如果雷霆拼圖是這水平 馬刺確實打不過

娛樂要聞

林俊杰七七與大哥嫂子的瓜剪不斷理還亂

財經要聞

長鑫科技IPO過會,市值會到幾萬億?

汽車要聞

限時補貼價9.28-10.98萬 MG 4X正式上市

態度原創

藝術
手機
本地
時尚
數碼

藝術要聞

螞蟻新總部封頂了!大圓環到底有啥魔力

手機要聞

2026年小米最重磅新品來了!玄戒+自研OS+AI大模型 三項自研大會師

本地新聞

用剪紙的方式,打開江蘇揚州

上新|| 穿了4年一直被要鏈接,這條神褲終于出了更好穿的版本

數碼要聞

樹莓派:12年前的Raspberry 1 B+當下年出貨規模仍有數千塊

無障礙瀏覽 進入關懷版