![]()
機器之心編輯部
過去的大模型 scaling law 通常回答的是:當模型參數量、數據量和訓練計算量增加后,loss 會如何下降。
但真實訓練過程要復雜得多。模型性能不只受參數量和數據量影響,還會受到訓練步數、處理 token 數、數據是否被重復使用、batch size、學習率、初始化尺度,以及推理時計算量等因素影響。
更麻煩的是,這些變量之間并不是簡單相加關系:某個變量可能在特定區間成為瓶頸,也可能讓性能曲線出現階段性「拐點」,甚至帶來非單調變化。比如,訓練數據太少或訓練超過一定 epoch 后可能出現過擬合;學習率或初始化權重標準差過大,也可能反過來損害性能。
針對這些限制,來自蒙特利爾大學 Mila、Google DeepMind 的研究者提出了一種全新的函數形式,稱為統一神經縮放定律(Unified Neural Scaling Law,簡稱 UNSL),它把多變量同時變化、拐點、瓶頸、過擬合以及超參數帶來的反向作用統一納入 scaling law。
所以,這篇論文的主張可以概括為:神經網絡的 scaling behavior 不應該只用「參數量 — 數據量 —loss」這樣的二維或三維公式描述,而應該用一個能同時處理多變量、階段性轉折、性能瓶頸、過擬合和超參數影響的統一函數形式。
![]()
- 論文標題:Unified Neural Scaling Laws
- 論文鏈接:https://arxiv.org/pdf/2605.26248
論文一作 Ethan Caballero 用一段視頻,展示了「統一神經縮放定律」準確建模和外推人工神經網絡在多個變量同時變化時呈現出的多變量縮放定律。
![]()
UNSL 的函數形式
UNSL 的完整架構是由多個分層函數嵌套而成的,它在多維對數空間中將性能建模為一組平滑連接的超平面:
![]()
其中 Q 定義如下:
![]()
R 定義如下:
![]()
K 為多變量斷裂神經縮放定律(Multivariate Broken Neural Scaling Law,MBNSL),定義如下:
![]()
整體上可以像下面這樣理解:
在函數形式上,UNSL 不是簡單把參數量、數據量和訓練步數塞進一個冪律公式,而是采用了一套分層結構。
底層的 K 是多變量 broken scaling law,用來描述 log-log 空間中由多個平滑連接超平面構成的 scaling 曲面;其中的 hyperbreak 對應性能曲面中的階段性轉折。
再往上一層,R 將整體 scaling 行為拆成非瓶頸組件和瓶頸組件,分別描述多變量共同作用下的整體趨勢,以及某一單獨變量限制最終性能的情況。瓶頸組件表示,當其他變量都足夠好時,某一個變量仍可能單獨限制性能。例如模型夠大、訓練夠久,但數據量不足,數據量就成為瓶頸;或者數據足夠多,但模型太小,參數量成為瓶頸。
Q 則進一步引入學習率、初始化尺度等超參數可能帶來的反向作用。
最外層公式再加入不可約性能極限、評價指標導致的壞表現極限,以及訓練超過一定 epoch 后可能出現的過擬合項。
下圖為統一神經縮放定律(Unified Neural Scaling Law,UNSL)的示意圖,包含兩個輸入維度 x_1 和 x_2;中間圖和右側圖分別展示了它在各個輸入維度上的投影。
在這個具體例子中,一個 UNSL 包含 3 個 hyperbreak,也就是圖中用更亮的虛線標出的橙色、黃色和綠色轉折結構。Hyperbreak 可以理解為 scaling law 中的「階段轉折」。例如一開始增加數據帶來明顯收益,過了某個區間收益下降,這個轉折就是一種 break;多變量情況下,它不再是一點,而是高維空間里的轉折面。
其中,綠色 hyperbreak 由非瓶頸組件產生;橙色 hyperbreak 由 x_1 瓶頸組件產生;黃色 hyperbreak 由 x_2 瓶頸組件產生。
![]()
實驗結果
在實驗部分,研究者對比了以下幾類函數形式。
第一類是已有 scaling law 形式,包括 CF 和 DC。CF 接近 Kaplan、Chinchilla 一類常見形式,主要描述參數量、訓練數據量或訓練 token 數與 loss 之間的關系。DC 來自 Muennighoff 等人的三變量函數形式,考慮參數量、訓練 token 數和訓練數據集大小。
第二類是作者設計的消融版本:A1、A2、A3。它們可以理解為 UNSL 的逐步簡化版。其中 A1 去掉了 additive symmetry,A2 加入了性能下限項,A3 進一步加入部分反向作用結構;完整 UNSL 包含全部 additive symmetry、瓶頸組件、非瓶頸組件、過擬合項和超參數反向作用項。
接下來,研究者主要做了視覺和語言兩大類實驗。
在視覺任務中,研究者評估了下游少樣本圖像分類,包括 Birds 200、Cars 196 和 ImageNet。模型包括 ViT、MLP-Mixer 和 BiT,它們在 JFT-300M 子集上預訓練。變量包括訓練數據集大小、訓練步數,以及在三變量設置中的模型參數量。結果顯示,在下游圖像識別任務中,UNSL 在 60.87% 的任務上取得最好的外推表現,而下一個最好的 A3 是 21.74%
在語言任務中,研究者評估了上游和下游語言表現,變量包括模型參數量、處理 token 數、訓練數據 token 數等。下游任務包括 LAMBADA 和 CSR,其中 CSR 是 HellaSwag、ARC、PIQA、WinoGrande、OpenBookQA、SIQA、BoolQ 等常識推理任務的零樣本平均錯誤率。結果顯示,在語言任務中,UNSL 在 88.89% 的任務上外推最好,而下一個最好的 A2 是 11.11%
![]()
更細化地講,視覺部分實驗分為二變量和三變量兩類:二變量設置中同時變化的是訓練數據集大小和訓練步數,三變量設置中同時變化的是訓練數據集大小、訓練步數和模型參數量。
在三變量視覺實驗中,UNSL 的優勢非常直接。以 Birds 和 ImageNet 為例,UNSL 都取得最低 RMSLE。尤其和 DC 相比,誤差下降非常明顯,說明只靠傳統三變量形式不足以描述視覺模型在參數量、訓練數據和訓練步數同時變化時的外推趨勢。
![]()
語言部分實驗同時覆蓋上游語言建模表現和下游任務表現。三變量語言實驗使用 Muennighoff 等人的 scaling behavior 數據,三個同時變化的維度是 模型參數量、處理過的 token 數、訓練數據集中的 token 數。二變量語言實驗則關注模型參數量與訓練步數 / 處理 token 數的關系。
在三變量語言實驗中,UNSL 的 RMSLE 明顯低于 A3、A2 、A1 和 DC。也就是說,在這個設置下,UNSL 的外推誤差大約只有 DC 的八分之一左右。
![]()
二變量語言實驗也體現了類似趨勢。在下表 5 中,UNSL 在大多數任務上取得最低誤差。
![]()
除了主文中的視覺和語言任務,論文還在附錄中給出更多場景,試圖說明 UNSL 的適用范圍更廣。UNSL 可以外推強化學習中的多變量 scaling behavior,可以處理寬度和深度同時變化的 scaling,還可以把 batch size 作為輸入變量;另外,UNSL 還被用于學習率、初始化權重標準差和訓練步數同時變化的三變量 scaling behavior。
一系列實驗結果表明,UNSL 的優勢不在于簡單擬合歷史數據,而在于它能在多變量同時變化的情況下,更穩定地預測模型性能隨規模擴展的走勢
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.