網易首頁 > 網易號 > 正文 申請入駐

ACL 2026 | 中科大&上海AILab揭示強化學習后訓練的Scaling Law

0
分享至



從 DeepSeek-R1 到 Kimi K2.5,強化學習(RL)后訓練已經成為提升大模型推理能力的核心手段。

但一個關鍵問題始終懸而未決:RL 后訓練的 Scaling 行為到底遵循什么規律?能否像預訓練 Scaling Law 那樣,給定模型參數量、計算預算和數據量,就能定量預測 RL 后訓練所能達到的性能?又能否像預訓練 Scaling Law 那樣,為實踐者指明一條清晰的擴展路徑?

來自中國科學技術大學和上海人工智能實驗室等機構的研究團隊給出了系統性的回答。團隊在 Qwen2.5 全系列密集模型(0.5B–72B)上開展了大規模 RL 訓練實證研究,并在 Llama 3 系列(1B–70B)上完成了跨架構驗證,首次全面刻畫了大模型強化學習后訓練在數學推理任務上的 Scaling 行為,提出了一套能夠預測模型學習效率與訓練軌跡的冪律公式。

目前該工作已被 ACL 2026 主會議接收。



  • 論文地址:https://arxiv.org/abs/2509.25300
  • 代碼鏈接:https://github.com/tanzelin430/Mathematical-Reasoning-RL-Scaling-Law
  • 數據集:https://huggingface.co/datasets/Artemis0430/GURU-MATH-CL

預訓練有 Scaling Law,RL 后訓練呢?

Scaling Law 的故事并不陌生。OpenAI 早在 2020 年便揭示了預訓練階段的 Scaling 法則,證明模型性能隨參數量、數據量和計算量的增長呈現可預測的冪律關系,奠定了現代大模型「規模即力量」的范式基礎。

然而,當訓練范式從預訓練 / 監督微調階段延伸到強化學習后訓練時,這套 Scaling 規律便難以直接套用。RL 的核心目標是通過策略優化來最大化獎勵,而非最小化 next-token prediction 的交叉熵損失,其訓練動態、數據利用方式和計算消耗模式都與預訓練有著本質區別。

這意味著,要理解 RL 后訓練的 Scaling 行為,需要回到實驗中去,重新建立屬于 RL 自身的經驗規律。

研究團隊選擇數學推理作為實驗平臺,原因在于數學任務具有天然的答案可驗證性,能夠為 RL 提供精確的獎勵信號,是當前 RL 后訓練最成熟的基準場景。在此基礎上,團隊圍繞計算受限、數據受限和數據重用三種典型場景展開了大規模受控實驗。

實驗設計與評測框架

為確保結論的魯棒性,研究團隊在實驗設計上做了充分的控制。

模型方面,主實驗覆蓋了 Qwen2.5 全系列 Dense 模型(0.5B 至 72B),共享相同架構,確保模型規模是唯一變量。

同時,為了保證 Scaling Law 的通用性,研究人員還在 Llama 3 系列(1B 至 70B)上進行了跨架構驗證。訓練統一采用 VeRL 分布式 RL 平臺和 GRPO 算法,每個配置重復 3 次,覆蓋 Base 和 Instruct 兩種模型變體,以保證統計可靠性。

訓練數據來自 guru-RL-92k 數據集的數學子集(約 5.4 萬道題,由 OR1、DeepScaler、DAPO 三個數據集組成),按難度排序實現課程學習。

評測方面,研究團隊定義測試損失 L = 1 - Pass@1 作為核心指標,以期與預訓練 Scaling Law 文獻中的 test loss 概念對齊。域內評測基于 500 道保持原始難度分布的數學題用于擬合 Scaling Law,跨領域評測則覆蓋數學、代碼、邏輯、科學等 8 個 benchmark 共約 3000 道題。

基于這套實驗框架,研究團隊得到了三個關鍵發現。

核心發現

發現一:具有 RL 性能預測能力 Scaling Law

研究的核心發現是一個簡潔而強大的 scaling 公式。模型的測試損失 L 與訓練資源 X(計算量 C 或數據量 D)之間存在對數線性關系:



其中,k (N) 是模型在強化學習后訓練階段的學習效率,它隨模型參數量 N 單調遞增。

實驗表明,該 Scaling 公式不僅能高精度擬合已有數據(R2 > 0.99),并且具備實際的預測能力,具體體現在兩個方面。

  • 跨模型外推(Inter-model Extrapolation):該 Scaling Law 支持利用小參數量模型的訓練數據來預測更大參數量模型的訓練軌跡。以本文為例,研究人員基于 0.5B 至 32B 模型的實驗數據擬合公式參數后,可直接預測 72B 模型的完整訓練曲線,且預測所得的學習效率等關鍵指標與 72B 模型的實際表現高度吻合。

這意味著,研究人員只需通過小模型實驗,便能預判大模型的訓練走向,從而大幅降低試錯成本。



圖 (1).Scaling Law 的擬合與跨模型外推能力

  • 訓練軌跡預測(Intra-model Prediction):該 Scaling Law 同樣支持對單一模型訓練過程的走勢預測。研究人員僅需使用訓練早期約 20%–30% 的數據點,便可準確外推出模型在完整數據集上的最終收斂性能。

這意味著,無需等待訓練全程結束,研究人員便能大致預判模型的收斂走向,從而為訓練過程中的資源分配與早停決策提供直接的指導依據,有效降低不必要的算力消耗。





圖 (2).Scaling Law 的擬合與模型內軌跡預測能力

需要特別指出的是,這一公式在 Compute(C)和 Data(D)兩個維度上具有統一的函數形式,即無論以算力還是數據量作為自變量,性能的 scaling 行為都遵循相同的數學結構。這種理論一致性為公式的可靠性提供了額外支撐。

發現二:學習效率的飽和趨勢

為了更精確的研究 Scaling Law,研究團隊對強化學習效率 k (N) 也進行了大量實證分析。

研究發現,更大的模型的確會學得更快。從 0.5B 到 72B,學習效率系數 k (N) 持續增長。但關鍵在于:這種增長并非線性的,而是逐漸趨于飽和。據此現象,研究團隊將強化學習的學習效率 k (N) 建模為







圖 (3). 強化學習后訓練的學習效率隨模型參數量的變化趨勢

這在實驗中表現為一個有趣的「性能交叉」現象,如圖 1.(a) 所示,在等量計算預算下,32B 模型在訓練初期的表現甚至優于 72B,因為更小的模型在相同計算量下能完成更多訓練步數。

研究團隊認為該現象揭示了一個關鍵的隱性權衡,即在計算受限的場景下,盲目堆大模型未必是最優策略。在有限預算內,找到模型規模和訓練步數之間的平衡點,可能比簡單地選擇最大模型更為明智。這一發現為 RL 后訓練的資源分配提供了重要的定量依據。

發現三:數據重用是有效策略

在探究 Scaling Law 之外,團隊還對在 RL 中一個非常實際的問題進行了探究:反復使用同一批數據訓練效果如何?數據重用是否會對訓練軌跡和最終性能造成顯著影響?





圖 (4). 數據重用對強化學習訓練軌跡的影響



研究團隊證實,在高質量推理數據有限的場景下,適度的數據重用是一種低成本、高回報的訓練策略。無需費力搜集更多數據,反復利用現有的高質量數據即可獲得接近等價的訓練效果,且不會對訓練軌跡造成明顯的偏差。

Scaling Law 的跨架構驗證

以上發現均基于 Qwen2.5 系列。一個自然的問題是:這些 scaling 行為是特定架構的產物,還是 RL 后訓練的普遍規律?

為此,研究團隊在Llama 3 模型族(Llama-3.2-1B/3B-Instruct、Llama-3.1-8B/70B-Instruct)上重復了完整實驗。

結果表明,同一冪律公式在 Llama 上同樣成立,且擬合后與實際訓練數據點的 R2 > 0.99。盡管 Llama 在訓練后的絕對性能上低于 Qwen,但scaling 關系的函數形式完全一致,k (N) 的飽和趨勢也保持不變。



圖 (5).Scaling Law 在 Llama 系列模型上的擬合效果

這一跨架構驗證確認了研究團隊所揭示的 Scaling Law 刻畫的是 RL 后訓練優化過程本身的內在規律,而非特定模型架構的特性。無論底層架構如何,只要采用相同的 RL 后訓練范式,性能的 scaling 行為就遵循統一的數學描述。

總結

這項工作的核心貢獻在于,通過對 Qwen2.5 和 Llama 3 兩個模型家族上的所有參數量級模型進行實證分析,為 RL 后訓練建立了系統性的 scaling 理論框架,并給出了可預測強化學習訓練軌跡的數學公式(Scaling Law)。

對于正在用 RL 提升大模型推理能力的研究者和工程師來說,這篇論文提供了一套可量化、可預測、可指導實踐的分析框架。而效率飽和這一發現,也在提醒我們:scale up 是有力的手段,但不是萬能的,理解 scaling 的邊界,才能更聰明地 scale。

作者介紹

本文由中國科學技術大學聯合上海人工智能實驗室、牛津大學等多家機構研究者合作完成。主要作者為上海人工智能實驗室聯培博士譚澤霖、牛津大學研究員耿鶴嘉等。其中論文第一作者譚澤霖是中科大與上海人工智能實驗室聯合培養博士生,其研究方向主要為智能體強化學習和機器學習系統。導師為白磊研究員,該篇文章由上海人工智能實驗室青年研究員張晨、牛津大學博后尹榛菲博士聯合執導。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
不愧是Netflix!這部黃暴美劇,值得一看

不愧是Netflix!這部黃暴美劇,值得一看

來看美劇
2026-04-27 19:10:35
iOS 27 即將發布!這四款 iPhone 將無法升級新系統

iOS 27 即將發布!這四款 iPhone 將無法升級新系統

XCiOS俱樂部
2026-04-26 21:46:48
這跟不穿有啥區別?內褲外露、開叉開到腰,有錢人的時尚真看不懂

這跟不穿有啥區別?內褲外露、開叉開到腰,有錢人的時尚真看不懂

潮鹿逐夢
2026-03-02 17:19:02
高通美股盤前股價漲幅擴大至10%

高通美股盤前股價漲幅擴大至10%

每日經濟新聞
2026-04-27 17:19:09
CBA最新消息!廣東男籃球票滯銷,張慶鵬帥位不穩,上海兩將復出

CBA最新消息!廣東男籃球票滯銷,張慶鵬帥位不穩,上海兩將復出

中國籃壇快訊
2026-04-27 16:23:20
東方甄選 “剩者為王”!YOYO 熬走所有對手,終成獨苗主播

東方甄選 “剩者為王”!YOYO 熬走所有對手,終成獨苗主播

南萬說娛26
2026-04-26 10:54:10
開始清算,不許3件事發生!30國代表離開東京,中方開打反擊戰

開始清算,不許3件事發生!30國代表離開東京,中方開打反擊戰

藍色海邊
2026-04-27 17:32:45
普京將赴美出席G20峰會,中方是否參加引特朗普表態

普京將赴美出席G20峰會,中方是否參加引特朗普表態

飄逸的云朵
2026-04-27 21:44:20
戚薇帶3歲兒子逛泡泡瑪特樂園,41歲的她不戴假發片,發量好少

戚薇帶3歲兒子逛泡泡瑪特樂園,41歲的她不戴假發片,發量好少

柒佰娛
2026-04-27 11:09:18
“見過最廉價的兜底”,一份山姆燒雞,讓低認知母子淪為全網笑柄

“見過最廉價的兜底”,一份山姆燒雞,讓低認知母子淪為全網笑柄

妍妍教育日記
2026-04-15 09:30:09
扎心!15年全職太太討生活費,被丈夫辱罵“沒出息”“只會要錢”

扎心!15年全職太太討生活費,被丈夫辱罵“沒出息”“只會要錢”

火山詩話
2026-04-26 07:54:24
瓜迪奧拉暗示他下賽季會重返曼城!

瓜迪奧拉暗示他下賽季會重返曼城!

夜白侃球
2026-04-27 10:01:14
中央明確了!社保最低繳費年限要提高,70、80后得早做準備

中央明確了!社保最低繳費年限要提高,70、80后得早做準備

云鵬敘事
2026-04-12 16:36:39
太瘆人!男子曬小區電梯圖,網友調侃豪華火化爐,評論區毛骨悚然

太瘆人!男子曬小區電梯圖,網友調侃豪華火化爐,評論區毛骨悚然

譚談社會
2026-04-23 01:58:02
34個低估龍頭暴雷,中國建筑,中國鐵建都暴雷,看準4條不踩雷

34個低估龍頭暴雷,中國建筑,中國鐵建都暴雷,看準4條不踩雷

鵬哥投研
2026-04-27 11:28:44
傳音控股2026年一季度凈利潤7億元,同比增長42.90%

傳音控股2026年一季度凈利潤7億元,同比增長42.90%

IT之家
2026-04-27 16:28:18
蔡正元談及蔣介石安葬問題:大陸嚴格遵循墓制不允中山陵同眠

蔡正元談及蔣介石安葬問題:大陸嚴格遵循墓制不允中山陵同眠

今天說故事
2026-04-27 17:46:55
上海地鐵32歲女子與66歲老太互毆后續:央媒發聲,拘留只是開始!

上海地鐵32歲女子與66歲老太互毆后續:央媒發聲,拘留只是開始!

閱微札記
2026-04-27 17:06:42
一年賣出6億元,“童年的噩夢”背背佳,又殺回來了

一年賣出6億元,“童年的噩夢”背背佳,又殺回來了

毒sir財經
2026-04-26 21:07:05
嗜賭成性只是冰山一角,婚內出軌、睡有婦之夫,體壇丑聞毀三觀

嗜賭成性只是冰山一角,婚內出軌、睡有婦之夫,體壇丑聞毀三觀

阿訊說天下
2026-04-25 11:15:04
2026-04-27 23:11:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
12874文章數 142638關注度
往期回顧 全部

科技要聞

DeepSeek V4上線三天,第一批實測出來了

頭條要聞

水庫放水21人被困下游河灘 有人讓家人踩肩頭爬樹避險

頭條要聞

水庫放水21人被困下游河灘 有人讓家人踩肩頭爬樹避險

體育要聞

最抽象的天才,正在改變瓜迪奧拉

娛樂要聞

黃楊鈿甜為“耳環風波”出鏡道歉:謠言已澄清

財經要聞

Meta 140億收購Manus遭中國發改委否決

汽車要聞

不那么小眾也可以 smart的路會越走越寬

態度原創

旅游
藝術
本地
公開課
軍事航空

旅游要聞

聽過花開的聲音嗎?4月28日到5月10日去新天地!

藝術要聞

你絕對想不到,攝影能讓她成為女神!

本地新聞

云游中國|逛世界風箏都 留學生探秘中國傳統文化

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊朗外長折返伊斯蘭堡內情披露

無障礙瀏覽 進入關懷版