无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

多變量神經縮放定律邁向大一統:Mila聯手DeepMind提出UNSL

0
分享至



機器之心編輯部

過去的大模型 scaling law 通常回答的是:當模型參數量、數據量和訓練計算量增加后,loss 會如何下降。

但真實訓練過程要復雜得多。模型性能不只受參數量和數據量影響,還會受到訓練步數、處理 token 數、數據是否被重復使用、batch size、學習率、初始化尺度,以及推理時計算量等因素影響。

更麻煩的是,這些變量之間并不是簡單相加關系:某個變量可能在特定區間成為瓶頸,也可能讓性能曲線出現階段性「拐點」,甚至帶來非單調變化。比如,訓練數據太少或訓練超過一定 epoch 后可能出現過擬合;學習率或初始化權重標準差過大,也可能反過來損害性能。

針對這些限制,來自蒙特利爾大學 Mila、Google DeepMind 的研究者提出了一種全新的函數形式,稱為統一神經縮放定律(Unified Neural Scaling Law,簡稱 UNSL),它把多變量同時變化、拐點、瓶頸、過擬合以及超參數帶來的反向作用統一納入 scaling law。

所以,這篇論文的主張可以概括為:神經網絡的 scaling behavior 不應該只用「參數量 — 數據量 —loss」這樣的二維或三維公式描述,而應該用一個能同時處理多變量、階段性轉折、性能瓶頸、過擬合和超參數影響的統一函數形式。



  • 論文標題:Unified Neural Scaling Laws
  • 論文鏈接:https://arxiv.org/pdf/2605.26248

論文一作 Ethan Caballero 用一段視頻,展示了「統一神經縮放定律」準確建模和外推人工神經網絡在多個變量同時變化時呈現出的多變量縮放定律。



UNSL 的函數形式

UNSL 的完整架構是由多個分層函數嵌套而成的,它在多維對數空間中將性能建模為一組平滑連接的超平面:



其中 Q 定義如下:



R 定義如下:



K 為多變量斷裂神經縮放定律(Multivariate Broken Neural Scaling Law,MBNSL),定義如下:



整體上可以像下面這樣理解:

在函數形式上,UNSL 不是簡單把參數量、數據量和訓練步數塞進一個冪律公式,而是采用了一套分層結構。

底層的 K 是多變量 broken scaling law,用來描述 log-log 空間中由多個平滑連接超平面構成的 scaling 曲面;其中的 hyperbreak 對應性能曲面中的階段性轉折。

再往上一層,R 將整體 scaling 行為拆成非瓶頸組件和瓶頸組件,分別描述多變量共同作用下的整體趨勢,以及某一單獨變量限制最終性能的情況。瓶頸組件表示,當其他變量都足夠好時,某一個變量仍可能單獨限制性能。例如模型夠大、訓練夠久,但數據量不足,數據量就成為瓶頸;或者數據足夠多,但模型太小,參數量成為瓶頸。

Q 則進一步引入學習率、初始化尺度等超參數可能帶來的反向作用。

最外層公式再加入不可約性能極限、評價指標導致的壞表現極限,以及訓練超過一定 epoch 后可能出現的過擬合項。

下圖為統一神經縮放定律(Unified Neural Scaling Law,UNSL)的示意圖,包含兩個輸入維度 x_1 和 x_2;中間圖和右側圖分別展示了它在各個輸入維度上的投影。

在這個具體例子中,一個 UNSL 包含 3 個 hyperbreak,也就是圖中用更亮的虛線標出的橙色、黃色和綠色轉折結構。Hyperbreak 可以理解為 scaling law 中的「階段轉折」。例如一開始增加數據帶來明顯收益,過了某個區間收益下降,這個轉折就是一種 break;多變量情況下,它不再是一點,而是高維空間里的轉折面。

其中,綠色 hyperbreak 由非瓶頸組件產生;橙色 hyperbreak 由 x_1 瓶頸組件產生;黃色 hyperbreak 由 x_2 瓶頸組件產生。



實驗結果

在實驗部分,研究者對比了以下幾類函數形式。

第一類是已有 scaling law 形式,包括 CF 和 DC。CF 接近 Kaplan、Chinchilla 一類常見形式,主要描述參數量、訓練數據量或訓練 token 數與 loss 之間的關系。DC 來自 Muennighoff 等人的三變量函數形式,考慮參數量、訓練 token 數和訓練數據集大小。

第二類是作者設計的消融版本:A1、A2、A3。它們可以理解為 UNSL 的逐步簡化版。其中 A1 去掉了 additive symmetry,A2 加入了性能下限項,A3 進一步加入部分反向作用結構;完整 UNSL 包含全部 additive symmetry、瓶頸組件、非瓶頸組件、過擬合項和超參數反向作用項。

接下來,研究者主要做了視覺和語言兩大類實驗。

在視覺任務中,研究者評估了下游少樣本圖像分類,包括 Birds 200、Cars 196 和 ImageNet。模型包括 ViT、MLP-Mixer 和 BiT,它們在 JFT-300M 子集上預訓練。變量包括訓練數據集大小、訓練步數,以及在三變量設置中的模型參數量。結果顯示,在下游圖像識別任務中,UNSL 在 60.87% 的任務上取得最好的外推表現,而下一個最好的 A3 是 21.74%

在語言任務中,研究者評估了上游和下游語言表現,變量包括模型參數量、處理 token 數、訓練數據 token 數等。下游任務包括 LAMBADA 和 CSR,其中 CSR 是 HellaSwag、ARC、PIQA、WinoGrande、OpenBookQA、SIQA、BoolQ 等常識推理任務的零樣本平均錯誤率。結果顯示,在語言任務中,UNSL 在 88.89% 的任務上外推最好,而下一個最好的 A2 是 11.11%



更細化地講,視覺部分實驗分為二變量和三變量兩類:二變量設置中同時變化的是訓練數據集大小和訓練步數,三變量設置中同時變化的是訓練數據集大小、訓練步數和模型參數量。

在三變量視覺實驗中,UNSL 的優勢非常直接。以 Birds 和 ImageNet 為例,UNSL 都取得最低 RMSLE。尤其和 DC 相比,誤差下降非常明顯,說明只靠傳統三變量形式不足以描述視覺模型在參數量、訓練數據和訓練步數同時變化時的外推趨勢。



語言部分實驗同時覆蓋上游語言建模表現和下游任務表現。三變量語言實驗使用 Muennighoff 等人的 scaling behavior 數據,三個同時變化的維度是 模型參數量、處理過的 token 數、訓練數據集中的 token 數。二變量語言實驗則關注模型參數量與訓練步數 / 處理 token 數的關系。

在三變量語言實驗中,UNSL 的 RMSLE 明顯低于 A3、A2 、A1 和 DC。也就是說,在這個設置下,UNSL 的外推誤差大約只有 DC 的八分之一左右。



二變量語言實驗也體現了類似趨勢。在下表 5 中,UNSL 在大多數任務上取得最低誤差。



除了主文中的視覺和語言任務,論文還在附錄中給出更多場景,試圖說明 UNSL 的適用范圍更廣。UNSL 可以外推強化學習中的多變量 scaling behavior,可以處理寬度和深度同時變化的 scaling,還可以把 batch size 作為輸入變量;另外,UNSL 還被用于學習率、初始化權重標準差和訓練步數同時變化的三變量 scaling behavior。

一系列實驗結果表明,UNSL 的優勢不在于簡單擬合歷史數據,而在于它能在多變量同時變化的情況下,更穩定地預測模型性能隨規模擴展的走勢

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
古巴8個鮮為人知的事實:曾迫使數萬華人流亡,從富裕國家滑落至極度困難

古巴8個鮮為人知的事實:曾迫使數萬華人流亡,從富裕國家滑落至極度困難

三言四拍
2026-05-30 13:05:06
扎哈羅娃:俄將對羅馬尼亞迅速采取報復措施

扎哈羅娃:俄將對羅馬尼亞迅速采取報復措施

參考消息
2026-05-30 11:58:56
三花智控高管“為孩子教育”減持套現,兩千億巨頭陷熱門概念敘事與資本套現割裂

三花智控高管“為孩子教育”減持套現,兩千億巨頭陷熱門概念敘事與資本套現割裂

每日經濟新聞
2026-05-30 14:41:08
“結婚22年后發現兩兒子均非親生”當事人發聲:我對他們恨之入骨!

“結婚22年后發現兩兒子均非親生”當事人發聲:我對他們恨之入骨!

新民周刊
2026-05-30 17:32:14
兩名9歲女孩被困電梯近2小時!求救幾十次后,保安回應:不要再按電梯玩了

兩名9歲女孩被困電梯近2小時!求救幾十次后,保安回應:不要再按電梯玩了

上觀新聞
2026-05-30 19:34:29
俄烏戰爭,如果俄羅斯最終贏了,你我在有生之年很可能會親歷戰爭

俄烏戰爭,如果俄羅斯最終贏了,你我在有生之年很可能會親歷戰爭

混沌錄
2026-05-29 23:26:12
重磅:烏克蘭擊毀俄羅斯兩架圖142!打掉伊斯坎德爾系統

重磅:烏克蘭擊毀俄羅斯兩架圖142!打掉伊斯坎德爾系統

項鵬飛
2026-05-30 16:28:01
西決搶七大戰裁判出爐:戴維斯擔任主裁 三人執哨兩隊勝率曝光

西決搶七大戰裁判出爐:戴維斯擔任主裁 三人執哨兩隊勝率曝光

羅說NBA
2026-05-30 21:26:04
央視曝光!涉事品牌:全部下架!天熱很多人愛喝

央視曝光!涉事品牌:全部下架!天熱很多人愛喝

蓬勃新聞
2026-05-29 14:53:17
打虎!王益華被查

打虎!王益華被查

新京報
2026-05-30 20:29:17
41歲夫妻因“房事頻繁”雙雙入院,醫生提醒:每周不應超過一個數

41歲夫妻因“房事頻繁”雙雙入院,醫生提醒:每周不應超過一個數

醫學原創故事會
2026-05-29 23:34:07
伊朗濃縮鈾材料將被挖出銷毀,特朗普就伊朗戰事最新表態

伊朗濃縮鈾材料將被挖出銷毀,特朗普就伊朗戰事最新表態

上游新聞
2026-05-29 23:35:03
D1804次列車受電弓遭異物擊打,被困隧道內超2小時,乘客稱全車停電悶熱異常,身上像從水里撈出來的,備用列車已到現場并開始轉運

D1804次列車受電弓遭異物擊打,被困隧道內超2小時,乘客稱全車停電悶熱異常,身上像從水里撈出來的,備用列車已到現場并開始轉運

臺州交通廣播
2026-05-30 13:47:54
耿同學再下一城!南開免去陳某院長職務,14張圖表確認學術不端

耿同學再下一城!南開免去陳某院長職務,14張圖表確認學術不端

聽心堂
2026-05-30 20:24:06
中方代表:日本沒有資格談國際防務合作 須警惕軍國主義思潮借機復活

中方代表:日本沒有資格談國際防務合作 須警惕軍國主義思潮借機復活

環球網資訊
2026-05-30 19:36:11
禁投美股,難得全球大國中惟一正確

禁投美股,難得全球大國中惟一正確

家傳編輯部
2026-05-30 12:24:47
海南一三甲醫院空調外機安在室內走廊,患者吐槽“看病比室外還熱”,院方回應

海南一三甲醫院空調外機安在室內走廊,患者吐槽“看病比室外還熱”,院方回應

上游新聞
2026-05-30 16:05:05
中建八局資質被正式撤銷,給全行業敲響警鐘,考公需要注意了。

中建八局資質被正式撤銷,給全行業敲響警鐘,考公需要注意了。

解說阿洎
2026-05-29 12:34:21
最新!債務突破100萬億!

最新!債務突破100萬億!

葉初七
2026-05-30 10:28:14
網紅狗被偷后續:男子被帶走,老婆還在哺乳期,收狗人曝更多內情

網紅狗被偷后續:男子被帶走,老婆還在哺乳期,收狗人曝更多內情

閱微札記
2026-05-30 11:47:19
2026-05-31 00:19:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
13116文章數 142655關注度
往期回顧 全部

科技要聞

車圈大佬發聲:價格戰遠去,但競爭仍殘酷

頭條要聞

兩名9歲女孩被困電梯近2小時 求救幾十次物業無動于衷

頭條要聞

兩名9歲女孩被困電梯近2小時 求救幾十次物業無動于衷

體育要聞

歲月不饒人!39歲德約鏖戰近5小時拼到嘔吐

娛樂要聞

張碧晨《歌手》 “活人微死” 自嘲

財經要聞

雙匯管不住一頭豬

汽車要聞

900V+3.2秒破百 領克10+&領克10上市16.99萬元起

態度原創

藝術
游戲
手機
公開課
軍事航空

藝術要聞

339米!珠海第一高樓,形似“蛟龍出海”

索尼PS第一方大作更新上線!超分來了 體驗大加強

手機要聞

REDMI K90至尊版入網?K90單品激活破200萬

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美防長參加"香會" 就美中關系最新表態

無障礙瀏覽 進入關懷版