![]()
本研究由快手科技語(yǔ)言大模型團(tuán)隊(duì)完成,核心作者呂民軒、梅鐵樺、杜坦隆等。快手科技與中國(guó)科學(xué)院大學(xué)聯(lián)合提出 GoLongRL,一套完全開源的長(zhǎng)上下文強(qiáng)化學(xué)習(xí)后訓(xùn)練方案,包含 23K 樣本 RLVR 數(shù)據(jù)集、完整訓(xùn)練代碼,以及針對(duì)異構(gòu)多任務(wù)的新算法 TMN-Reweight。
![]()
- 論文標(biāo)題:GoLongRL: Capability-Oriented Long Context Reinforcement Learning with Multitask Alignment
- 論文鏈接:https://huggingface.co/papers/2605.19577
- GitHub:https://github.com/xiaoxuanNLP/GoLongRL
![]()
圖 1:GoLongRL-30B-A3B 與各頂級(jí)模型的長(zhǎng)上下文綜合評(píng)測(cè)對(duì)比
為什么現(xiàn)有的長(zhǎng)上下文 RL 方法不夠好?
當(dāng)前主流的長(zhǎng)上下文 RL 方法(LoongRL、LongRLVR、QwenLong-L1.5 等)有兩個(gè)共同問題:訓(xùn)練數(shù)據(jù)基本圍繞 “在更長(zhǎng)文本里找更難找的答案” 這條路走,任務(wù)覆蓋高度同質(zhì);獎(jiǎng)勵(lì)設(shè)計(jì)被壓縮為單一的精確匹配或準(zhǔn)確率,排序、摘要、窮舉檢索這些能力幾乎沒有直接監(jiān)督。
數(shù)據(jù):以能力為導(dǎo)向
三大設(shè)計(jì)原則
GoLongRL 的數(shù)據(jù)構(gòu)造遵循三大原則:能力導(dǎo)向、獎(jiǎng)勵(lì)與任務(wù)語(yǔ)義對(duì)齊、真實(shí)文檔優(yōu)先。
能力導(dǎo)向。參考 LongBench Pro 提出的能力分類體系,定義了 9 種核心任務(wù)類型,覆蓋長(zhǎng)上下文理解所需的關(guān)鍵能力維度。T1-T4 構(gòu)成訓(xùn)練主干(占比超過 90%),覆蓋基礎(chǔ)長(zhǎng)上下文能力;T6-T9 的樣本量相對(duì)較少(合計(jì)不足 4%),但每種任務(wù)都保留了其最自然的獎(jiǎng)勵(lì)形式,確保完整的能力覆蓋。
這 9 大任務(wù)類型及其對(duì)應(yīng)的能力維度如下:
![]()
表 1:GoLongRL 數(shù)據(jù)集能力類型及其對(duì)應(yīng)獎(jiǎng)勵(lì)
獎(jiǎng)勵(lì)與任務(wù)語(yǔ)義對(duì)齊。長(zhǎng)上下文任務(wù)在評(píng)估維度上差異顯著:摘要依賴 ROUGE,排序依賴 NDCG,抽取依賴 F1,將其統(tǒng)一壓縮為單一指標(biāo)會(huì)損失大量任務(wù)特有的語(yǔ)義信息。GoLongRL 為每類任務(wù)單獨(dú)配置最契合其目標(biāo)的評(píng)估指標(biāo)作為獎(jiǎng)勵(lì)函數(shù),使 RL 訓(xùn)練中的反饋信號(hào)與任務(wù)本身的評(píng)估邏輯保持一致。
真實(shí)文檔優(yōu)先。基于模板的合成數(shù)據(jù)存在一個(gè)結(jié)構(gòu)性風(fēng)險(xiǎn):當(dāng)多段短文檔被拼接為長(zhǎng)輸入時(shí),段落邊界與格式標(biāo)記本身攜帶了可被利用的位置信息,模型容易習(xí)得依賴這類淺層線索作答的捷徑,而非形成真正的跨段落理解能力。因此 GoLongRL 以書籍、學(xué)術(shù)論文、法律文書和財(cái)務(wù)報(bào)告等真實(shí)文檔為主要訓(xùn)練來源。對(duì)于標(biāo)注稀缺的領(lǐng)域,僅在真實(shí)文檔上合成問答對(duì),而非生成文檔本身。
![]()
圖 2:訓(xùn)練數(shù)據(jù)的 UMAP 投影
數(shù)據(jù)來源:開源策略與合成策略并行
數(shù)據(jù)集的 22,965 個(gè)樣本來自兩個(gè)互補(bǔ)的池子:
- 約 14K 開源樣本:從 CLongEval、LongBench Pro、MultiTableQA、CAIL2018 等已開源的長(zhǎng)上下文語(yǔ)料庫(kù)中改寫,這些樣本已有人工驗(yàn)證的標(biāo)注,覆蓋法律案例、財(cái)務(wù)報(bào)告、文學(xué)小說和多輪對(duì)話等多個(gè)領(lǐng)域。
- 約 9K 合成樣本:?jiǎn)柎饘?duì)由真實(shí)源文檔生成,源文檔包括 Project Gutenberg 圖書、arXiv CC0 等自然長(zhǎng)文素材。合成的是問答對(duì)本身,而非文檔。
四階段構(gòu)造 pipeline
![]()
圖 3:GoLongRL 數(shù)據(jù)構(gòu)造四階段 pipeline
整個(gè)數(shù)據(jù)集通過統(tǒng)一的四階段流水線生產(chǎn):
- P1 源語(yǔ)料收集:按 9 類任務(wù)分別收集有標(biāo)注的開源數(shù)據(jù)集和無標(biāo)注真實(shí)文檔,盡量覆蓋不同領(lǐng)域、文檔結(jié)構(gòu)和長(zhǎng)度區(qū)間。
- P2 任務(wù)過濾與分配:對(duì)每個(gè)樣本按任務(wù)語(yǔ)義分配唯一標(biāo)簽。比如 CLongEval 里定位單一事實(shí)的樣本歸 T1,CAIL2018 里需要聚合多條法律條款的歸 T3,對(duì)話記憶子類(T2)只保留超過 50 輪、30K Token 以上的對(duì)話。
- P3 樣本構(gòu)造:開源數(shù)據(jù)做兼容性過濾和獎(jiǎng)勵(lì)格式標(biāo)準(zhǔn)化(如把數(shù)值答案改寫為 math_verify 可解析格式)。合成數(shù)據(jù)按文檔長(zhǎng)度分桶,普通長(zhǎng)度用 DeepSeek-V3.2 生成問答對(duì),超長(zhǎng)文檔交給 Gemini-2.5-Pro;生成后經(jīng)兩階段質(zhì)量過濾 —— 先由 Gemini-2.5-Pro 驗(yàn)證答案唯一性和無幻覺,再用 Qwen3-4B 和 Qwen3-30B-A3B 的多級(jí)通過率測(cè)試剔除標(biāo)簽噪聲。
- P4 迭代精化:先做 13-gram 重疊過濾防數(shù)據(jù)污染,再訓(xùn)練并做基準(zhǔn)診斷。某維度停滯就排查獎(jiǎng)勵(lì)作弊、答案歧義等問題并清除;信號(hào)不足就回到 P1–P3 定向補(bǔ)數(shù)據(jù),循環(huán)至性能和質(zhì)量穩(wěn)定。
TMN-Reweight:面向異構(gòu)多任務(wù)的優(yōu)化算法
能力導(dǎo)向的數(shù)據(jù)集帶來了 9 種不同的獎(jiǎng)勵(lì)函數(shù),它們的數(shù)值尺度和方差分布各不相同。在標(biāo)準(zhǔn) GRPO 框架下進(jìn)行混合訓(xùn)練時(shí),優(yōu)化過程面臨兩個(gè)相互糾纏的問題。
![]()
TMN-Reweight 的核心思路
TMN-Reweight 將尺度歸一化與難度校正解耦為兩個(gè)獨(dú)立步驟
![]()
實(shí)驗(yàn)結(jié)果
主要結(jié)果:4B 模型達(dá)到 SOTA
4B 規(guī)模上的實(shí)驗(yàn)設(shè)計(jì)使得數(shù)據(jù)貢獻(xiàn)和算法貢獻(xiàn)可以獨(dú)立評(píng)估:
![]()
表 3:主實(shí)驗(yàn) - 4B
4B 規(guī)模:僅憑數(shù)據(jù),vanilla GRPO 已比 QwenLong-L1.5(GRPO)高 6.1 分(62.2 vs 56.1),甚至超過其專用算法 AEPO 版本(59.4 分)。加上 TMN-Reweight 進(jìn)一步提升至 63.0。
主要結(jié)果:30B 模型超越頂級(jí)旗艦?zāi)P?/strong>
![]()
表 4:主實(shí)驗(yàn) - 30B
30B 規(guī)模:GoLongRL-30B-A3B 以 69.8 分超越 DeepSeek-R1-0528(68.67)、Qwen3-235B-A22B-Thinking-2507(68.45)和 Gemini-2.5-Flash-Thinking(68.73),也全面超越同等算法(GRPO)訓(xùn)練的 QwenLong-L1.5-30B(67.2)。
通用能力保持與遷移
長(zhǎng)上下文 RL 訓(xùn)練沒有帶來負(fù)遷移。通用推理上,4B 和 30B 模型在 MMLU-Pro、AIME24/25、GPQA-Diamond 上均有小幅提升,兩個(gè)規(guī)模的模型趨勢(shì)一致。
更值得關(guān)注的是遷移效果。Agentic Memory 的 Memory-Vec 和 Memory-Rec_Sum 兩項(xiàng)任務(wù)訓(xùn)練中從未出現(xiàn)過,但 4B 模型 Memory-Rec_Sum 仍提升了 9.7 分,30B 提升 4.5 分。對(duì)話記憶(LongMemEval)兩個(gè)規(guī)模均提升 13.6 分(4B: 47.6→61.2;30B: 61.6→75.2),30B 超過 QwenLong-L1.5-30B 的 72.2 分。說明長(zhǎng)上下文 RL 學(xué)到的信息整合能力能遷移到訓(xùn)練中沒見過的任務(wù)上。
長(zhǎng)度外推能力
GoLongRL 訓(xùn)練上下文為 160K,但能力可以泛化到更長(zhǎng)的序列。4B 模型在 MRCR 128K–512K 提升 12.27 分、512K–1M 提升 3.50 分;30B 更明顯,MRCR 128K–512K +12.61、512K–1M +5.45,CorpusQA 1M +2.74。160K 訓(xùn)練習(xí)得的能力沒有被局限在訓(xùn)練長(zhǎng)度范圍內(nèi)。
總結(jié)
數(shù)據(jù)覆蓋度和獎(jiǎng)勵(lì)多樣性是長(zhǎng)上下文 RL 的主要瓶頸,而非算法本身。把任務(wù)從 "復(fù)雜檢索路徑" 擴(kuò)展到更全面的能力維度,并為每種任務(wù)匹配語(yǔ)義合適的獎(jiǎng)勵(lì)函數(shù),即使較小的模型也能達(dá)到與旗艦?zāi)P拖喈?dāng)?shù)拈L(zhǎng)上下文性能。
數(shù)據(jù)集、模型和訓(xùn)練與評(píng)測(cè)代碼已完整開源。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.