无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

快手開源GoLongRL:23K樣本、9大任務(wù)類型,長(zhǎng)上下文RL荒時(shí)代結(jié)束

0
分享至



本研究由快手科技語(yǔ)言大模型團(tuán)隊(duì)完成,核心作者呂民軒、梅鐵樺、杜坦隆等。快手科技與中國(guó)科學(xué)院大學(xué)聯(lián)合提出 GoLongRL,一套完全開源的長(zhǎng)上下文強(qiáng)化學(xué)習(xí)后訓(xùn)練方案,包含 23K 樣本 RLVR 數(shù)據(jù)集、完整訓(xùn)練代碼,以及針對(duì)異構(gòu)多任務(wù)的新算法 TMN-Reweight。



  • 論文標(biāo)題:GoLongRL: Capability-Oriented Long Context Reinforcement Learning with Multitask Alignment
  • 論文鏈接:https://huggingface.co/papers/2605.19577
  • GitHub:https://github.com/xiaoxuanNLP/GoLongRL



圖 1:GoLongRL-30B-A3B 與各頂級(jí)模型的長(zhǎng)上下文綜合評(píng)測(cè)對(duì)比

為什么現(xiàn)有的長(zhǎng)上下文 RL 方法不夠好?

當(dāng)前主流的長(zhǎng)上下文 RL 方法(LoongRL、LongRLVR、QwenLong-L1.5 等)有兩個(gè)共同問題:訓(xùn)練數(shù)據(jù)基本圍繞 “在更長(zhǎng)文本里找更難找的答案” 這條路走,任務(wù)覆蓋高度同質(zhì);獎(jiǎng)勵(lì)設(shè)計(jì)被壓縮為單一的精確匹配或準(zhǔn)確率,排序、摘要、窮舉檢索這些能力幾乎沒有直接監(jiān)督。

數(shù)據(jù):以能力為導(dǎo)向

三大設(shè)計(jì)原則

GoLongRL 的數(shù)據(jù)構(gòu)造遵循三大原則:能力導(dǎo)向、獎(jiǎng)勵(lì)與任務(wù)語(yǔ)義對(duì)齊、真實(shí)文檔優(yōu)先。

能力導(dǎo)向。參考 LongBench Pro 提出的能力分類體系,定義了 9 種核心任務(wù)類型,覆蓋長(zhǎng)上下文理解所需的關(guān)鍵能力維度。T1-T4 構(gòu)成訓(xùn)練主干(占比超過 90%),覆蓋基礎(chǔ)長(zhǎng)上下文能力;T6-T9 的樣本量相對(duì)較少(合計(jì)不足 4%),但每種任務(wù)都保留了其最自然的獎(jiǎng)勵(lì)形式,確保完整的能力覆蓋。

這 9 大任務(wù)類型及其對(duì)應(yīng)的能力維度如下:



表 1:GoLongRL 數(shù)據(jù)集能力類型及其對(duì)應(yīng)獎(jiǎng)勵(lì)

獎(jiǎng)勵(lì)與任務(wù)語(yǔ)義對(duì)齊。長(zhǎng)上下文任務(wù)在評(píng)估維度上差異顯著:摘要依賴 ROUGE,排序依賴 NDCG,抽取依賴 F1,將其統(tǒng)一壓縮為單一指標(biāo)會(huì)損失大量任務(wù)特有的語(yǔ)義信息。GoLongRL 為每類任務(wù)單獨(dú)配置最契合其目標(biāo)的評(píng)估指標(biāo)作為獎(jiǎng)勵(lì)函數(shù),使 RL 訓(xùn)練中的反饋信號(hào)與任務(wù)本身的評(píng)估邏輯保持一致。

真實(shí)文檔優(yōu)先。基于模板的合成數(shù)據(jù)存在一個(gè)結(jié)構(gòu)性風(fēng)險(xiǎn):當(dāng)多段短文檔被拼接為長(zhǎng)輸入時(shí),段落邊界與格式標(biāo)記本身攜帶了可被利用的位置信息,模型容易習(xí)得依賴這類淺層線索作答的捷徑,而非形成真正的跨段落理解能力。因此 GoLongRL 以書籍、學(xué)術(shù)論文、法律文書和財(cái)務(wù)報(bào)告等真實(shí)文檔為主要訓(xùn)練來源。對(duì)于標(biāo)注稀缺的領(lǐng)域,僅在真實(shí)文檔上合成問答對(duì),而非生成文檔本身。



圖 2:訓(xùn)練數(shù)據(jù)的 UMAP 投影

數(shù)據(jù)來源:開源策略與合成策略并行

數(shù)據(jù)集的 22,965 個(gè)樣本來自兩個(gè)互補(bǔ)的池子:

  • 約 14K 開源樣本:從 CLongEval、LongBench Pro、MultiTableQA、CAIL2018 等已開源的長(zhǎng)上下文語(yǔ)料庫(kù)中改寫,這些樣本已有人工驗(yàn)證的標(biāo)注,覆蓋法律案例、財(cái)務(wù)報(bào)告、文學(xué)小說和多輪對(duì)話等多個(gè)領(lǐng)域。
  • 約 9K 合成樣本:?jiǎn)柎饘?duì)由真實(shí)源文檔生成,源文檔包括 Project Gutenberg 圖書、arXiv CC0 等自然長(zhǎng)文素材。合成的是問答對(duì)本身,而非文檔。

四階段構(gòu)造 pipeline



圖 3:GoLongRL 數(shù)據(jù)構(gòu)造四階段 pipeline

整個(gè)數(shù)據(jù)集通過統(tǒng)一的四階段流水線生產(chǎn):

  • P1 源語(yǔ)料收集:按 9 類任務(wù)分別收集有標(biāo)注的開源數(shù)據(jù)集和無標(biāo)注真實(shí)文檔,盡量覆蓋不同領(lǐng)域、文檔結(jié)構(gòu)和長(zhǎng)度區(qū)間。
  • P2 任務(wù)過濾與分配:對(duì)每個(gè)樣本按任務(wù)語(yǔ)義分配唯一標(biāo)簽。比如 CLongEval 里定位單一事實(shí)的樣本歸 T1,CAIL2018 里需要聚合多條法律條款的歸 T3,對(duì)話記憶子類(T2)只保留超過 50 輪、30K Token 以上的對(duì)話。
  • P3 樣本構(gòu)造:開源數(shù)據(jù)做兼容性過濾和獎(jiǎng)勵(lì)格式標(biāo)準(zhǔn)化(如把數(shù)值答案改寫為 math_verify 可解析格式)。合成數(shù)據(jù)按文檔長(zhǎng)度分桶,普通長(zhǎng)度用 DeepSeek-V3.2 生成問答對(duì),超長(zhǎng)文檔交給 Gemini-2.5-Pro;生成后經(jīng)兩階段質(zhì)量過濾 —— 先由 Gemini-2.5-Pro 驗(yàn)證答案唯一性和無幻覺,再用 Qwen3-4B 和 Qwen3-30B-A3B 的多級(jí)通過率測(cè)試剔除標(biāo)簽噪聲。
  • P4 迭代精化:先做 13-gram 重疊過濾防數(shù)據(jù)污染,再訓(xùn)練并做基準(zhǔn)診斷。某維度停滯就排查獎(jiǎng)勵(lì)作弊、答案歧義等問題并清除;信號(hào)不足就回到 P1–P3 定向補(bǔ)數(shù)據(jù),循環(huán)至性能和質(zhì)量穩(wěn)定。

TMN-Reweight:面向異構(gòu)多任務(wù)的優(yōu)化算法

能力導(dǎo)向的數(shù)據(jù)集帶來了 9 種不同的獎(jiǎng)勵(lì)函數(shù),它們的數(shù)值尺度和方差分布各不相同。在標(biāo)準(zhǔn) GRPO 框架下進(jìn)行混合訓(xùn)練時(shí),優(yōu)化過程面臨兩個(gè)相互糾纏的問題。



TMN-Reweight 的核心思路

TMN-Reweight 將尺度歸一化與難度校正解耦為兩個(gè)獨(dú)立步驟



實(shí)驗(yàn)結(jié)果

主要結(jié)果:4B 模型達(dá)到 SOTA

4B 規(guī)模上的實(shí)驗(yàn)設(shè)計(jì)使得數(shù)據(jù)貢獻(xiàn)和算法貢獻(xiàn)可以獨(dú)立評(píng)估:



表 3:主實(shí)驗(yàn) - 4B

4B 規(guī)模:僅憑數(shù)據(jù),vanilla GRPO 已比 QwenLong-L1.5(GRPO)高 6.1 分(62.2 vs 56.1),甚至超過其專用算法 AEPO 版本(59.4 分)。加上 TMN-Reweight 進(jìn)一步提升至 63.0。

主要結(jié)果:30B 模型超越頂級(jí)旗艦?zāi)P?/strong>



表 4:主實(shí)驗(yàn) - 30B

30B 規(guī)模:GoLongRL-30B-A3B 以 69.8 分超越 DeepSeek-R1-0528(68.67)、Qwen3-235B-A22B-Thinking-2507(68.45)和 Gemini-2.5-Flash-Thinking(68.73),也全面超越同等算法(GRPO)訓(xùn)練的 QwenLong-L1.5-30B(67.2)。

通用能力保持與遷移

長(zhǎng)上下文 RL 訓(xùn)練沒有帶來負(fù)遷移。通用推理上,4B 和 30B 模型在 MMLU-Pro、AIME24/25、GPQA-Diamond 上均有小幅提升,兩個(gè)規(guī)模的模型趨勢(shì)一致。

更值得關(guān)注的是遷移效果。Agentic Memory 的 Memory-Vec 和 Memory-Rec_Sum 兩項(xiàng)任務(wù)訓(xùn)練中從未出現(xiàn)過,但 4B 模型 Memory-Rec_Sum 仍提升了 9.7 分,30B 提升 4.5 分。對(duì)話記憶(LongMemEval)兩個(gè)規(guī)模均提升 13.6 分(4B: 47.6→61.2;30B: 61.6→75.2),30B 超過 QwenLong-L1.5-30B 的 72.2 分。說明長(zhǎng)上下文 RL 學(xué)到的信息整合能力能遷移到訓(xùn)練中沒見過的任務(wù)上。

長(zhǎng)度外推能力

GoLongRL 訓(xùn)練上下文為 160K,但能力可以泛化到更長(zhǎng)的序列。4B 模型在 MRCR 128K–512K 提升 12.27 分、512K–1M 提升 3.50 分;30B 更明顯,MRCR 128K–512K +12.61、512K–1M +5.45,CorpusQA 1M +2.74。160K 訓(xùn)練習(xí)得的能力沒有被局限在訓(xùn)練長(zhǎng)度范圍內(nèi)。

總結(jié)

數(shù)據(jù)覆蓋度和獎(jiǎng)勵(lì)多樣性是長(zhǎng)上下文 RL 的主要瓶頸,而非算法本身。把任務(wù)從 "復(fù)雜檢索路徑" 擴(kuò)展到更全面的能力維度,并為每種任務(wù)匹配語(yǔ)義合適的獎(jiǎng)勵(lì)函數(shù),即使較小的模型也能達(dá)到與旗艦?zāi)P拖喈?dāng)?shù)拈L(zhǎng)上下文性能。

數(shù)據(jù)集、模型和訓(xùn)練與評(píng)測(cè)代碼已完整開源。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
618蘋果又屠榜,國(guó)產(chǎn)機(jī)只剩尷尬

618蘋果又屠榜,國(guó)產(chǎn)機(jī)只剩尷尬

熱搜摘要官
2026-06-20 00:27:40
河南85克拉裸鉆剛量產(chǎn)!俄國(guó)發(fā)布“鉆石禁令”,網(wǎng)友:這不巧了么

河南85克拉裸鉆剛量產(chǎn)!俄國(guó)發(fā)布“鉆石禁令”,網(wǎng)友:這不巧了么

火星方陣
2026-06-20 20:47:18
虎撲網(wǎng)友發(fā)帖求圖:這不屬于普通人的世界

虎撲網(wǎng)友發(fā)帖求圖:這不屬于普通人的世界

赴一場(chǎng)山海啊
2026-06-21 00:47:43
貝加爾湖深達(dá)千米,水量是長(zhǎng)江的25倍,里面最大的魚有多大?

貝加爾湖深達(dá)千米,水量是長(zhǎng)江的25倍,里面最大的魚有多大?

史智文道
2026-06-21 16:45:44
孫藝珍一家在沖繩度假,她摟著玄彬,玄彬很壯,兩人體型差明顯

孫藝珍一家在沖繩度假,她摟著玄彬,玄彬很壯,兩人體型差明顯

滄海一書客
2026-06-21 14:58:31
百年歷史,22屆世界杯,僅8個(gè)國(guó)家捧過杯!足球的王座有多難?

百年歷史,22屆世界杯,僅8個(gè)國(guó)家捧過杯!足球的王座有多難?

神州足球
2026-06-09 12:59:21
8場(chǎng)4球!7場(chǎng)0球!身價(jià)8500萬(wàn)歐卻成阿根廷隊(duì)武磊,接班梅西恐無望

8場(chǎng)4球!7場(chǎng)0球!身價(jià)8500萬(wàn)歐卻成阿根廷隊(duì)武磊,接班梅西恐無望

大衛(wèi)的籃球故事
2026-06-21 16:10:46
不打伊朗了,美軍突然調(diào)轉(zhuǎn)槍口,集結(jié)航母和遼寧艦正面對(duì)峙!

不打伊朗了,美軍突然調(diào)轉(zhuǎn)槍口,集結(jié)航母和遼寧艦正面對(duì)峙!

騷年先鋒
2026-06-18 23:17:24
104歲澳洲科學(xué)家沒病也要安樂死,嫌活太久、摔地兩天沒人知,臨終吐槽這過程太長(zhǎng)了

104歲澳洲科學(xué)家沒病也要安樂死,嫌活太久、摔地兩天沒人知,臨終吐槽這過程太長(zhǎng)了

童童聊娛樂啊
2026-06-20 01:41:02
國(guó)乒和威海基地一刀切,賀曉龍回應(yīng)王楠夫婦:別拿情懷包裝生意

國(guó)乒和威海基地一刀切,賀曉龍回應(yīng)王楠夫婦:別拿情懷包裝生意

徐扙老表哥
2026-06-21 08:28:10
C羅六次出征世界杯!12個(gè)女友,5個(gè)娃3個(gè)媽,終被等了9年柜姐收服

C羅六次出征世界杯!12個(gè)女友,5個(gè)娃3個(gè)媽,終被等了9年柜姐收服

法老不說教
2026-06-21 16:13:57
尼克斯阿爾瓦拉多奪冠慶祝多瘋狂:已連醉7天 夜店開心撒錢

尼克斯阿爾瓦拉多奪冠慶祝多瘋狂:已連醉7天 夜店開心撒錢

醉臥浮生
2026-06-21 17:24:36
少有人知道解放戰(zhàn)爭(zhēng)時(shí),我軍有四個(gè)師曾被敵人策反,但很快被殲滅

少有人知道解放戰(zhàn)爭(zhēng)時(shí),我軍有四個(gè)師曾被敵人策反,但很快被殲滅

杜櫚手工制作
2026-06-18 21:13:53
房?jī)r(jià)從1.5萬(wàn)元跌到5000元,卻依舊無人問津,中介:根本就沒人買

房?jī)r(jià)從1.5萬(wàn)元跌到5000元,卻依舊無人問津,中介:根本就沒人買

專業(yè)聊房君
2026-06-21 10:15:46
42歲李宇春嫁法國(guó)老頭真相曝光,近況不意外

42歲李宇春嫁法國(guó)老頭真相曝光,近況不意外

微風(fēng)輕拂面
2026-06-21 17:45:18
對(duì)公共場(chǎng)所的臟有了清晰認(rèn)知!網(wǎng)友:質(zhì)疑精致女孩,理解精致女孩

對(duì)公共場(chǎng)所的臟有了清晰認(rèn)知!網(wǎng)友:質(zhì)疑精致女孩,理解精致女孩

夜深愛雜談
2026-06-21 18:38:28
賈玲“胖回來了”?本人回應(yīng):反彈后更放松自在,健康比體重重要

賈玲“胖回來了”?本人回應(yīng):反彈后更放松自在,健康比體重重要

馬拉松跑步健身
2026-06-19 21:58:27
私生活混亂、被央視“開除”、陪睡上位,她身上哪個(gè)標(biāo)簽是真的?

私生活混亂、被央視“開除”、陪睡上位,她身上哪個(gè)標(biāo)簽是真的?

素衣讀史
2026-06-18 21:37:31
斷子絕孫!無兒則族譜名下填“止”引爭(zhēng)議,網(wǎng)友:多數(shù)家譜是廢紙

斷子絕孫!無兒則族譜名下填“止”引爭(zhēng)議,網(wǎng)友:多數(shù)家譜是廢紙

火山詩(shī)話
2026-06-20 15:09:51
男籃勝澳大利亞各界說啥?蘇群贊王俊杰作用,3將發(fā)揮被認(rèn)可!

男籃勝澳大利亞各界說啥?蘇群贊王俊杰作用,3將發(fā)揮被認(rèn)可!

籃球資訊達(dá)人
2026-06-21 21:55:56
2026-06-21 23:12:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
13319文章數(shù) 142674關(guān)注度
往期回顧 全部

科技要聞

馬斯克拿下7800億元天價(jià)薪酬 2028年可兌現(xiàn)

頭條要聞

知名作家"南派三叔"向媒體求助:思慮再三聯(lián)系了你們

頭條要聞

知名作家"南派三叔"向媒體求助:思慮再三聯(lián)系了你們

體育要聞

德國(guó)的超級(jí)替補(bǔ),10年前還在工廠上班

娛樂要聞

原來她就是張頌文老婆

財(cái)經(jīng)要聞

“床墊界的特斯拉”破產(chǎn)了

汽車要聞

驚出冷汗!重慶實(shí)測(cè)奧迪A5L,華為智駕這波操作絕了…

態(tài)度原創(chuàng)

教育
數(shù)碼
健康
家居
公開課

教育要聞

做上位機(jī),這些專業(yè)比計(jì)算機(jī)更香

數(shù)碼要聞

極摩客EVO-X3 4T桌面AI超算中心即將預(yù)售 Lisa SU親簽

吃粽子的3條保胃法則,消化科醫(yī)生推薦

家居要聞

綠意盎然 自然之境

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版