无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

訓練獎勵太稀疏?港中文聯合美團給Agent加上「過程分」

0
分享至



在很多大模型和 Agent 的訓練里,最常見的一種做法就是只看結果:最后答案對了就給獎勵,錯了就當 0 分。

在單輪問答里,這樣「只看結果」還勉強能用;可一旦換成 Agent 這種要多輪對話、搜索、刷網頁、寫代碼、讀文件的長鏈任務,就變成用一個 bit 去概括一整條復雜軌跡。

結果就是:差一點就做成功的過程,和從第一步就跑偏的過程,在獎勵眼里沒區別;訓練看不出哪種失敗更有價值,手寫規則或人工細粒度打分又很難覆蓋開放環境、多模態這些復雜情況。

港中文和美團在這篇工作里,盯上的就是這個核心矛盾:

Agent 需要長程、細粒度的反饋,但我們手里大多只有終局對錯這樣的粗粒度獎勵。



  • 論文標題:Exploring Reasoning Reward Model for Agents
  • 論文鏈接:https://arxiv.org/pdf/2601.22154
  • 項目地址:https://github.com/kxfan2002/Reagent

為了解決這個矛盾,作者先造了一個「懂推理、看得懂工具調用」的評審器,給 Agent 的整條軌跡打「過程分」和「評語」,再把這份反饋喂回訓練。

這也是 Reagent 框架的核心出發點:讓 Agent 不再只看結果,而是也要為自己的思考和工具調用過程負責。

給 Agent 的思路打個分

這篇工作最重要的一步,就是不再只看 Agent 最后有沒有把題做對,而是開始認真給整個思考過程打分。

研究團隊先搭了一套專門面向智能體的「思考評分類」數據:里面收集了各種真實的 Agent 軌跡,有推理順暢但執行失誤的,有一路亂猜卻剛好蒙對的,也有工具用得亂七八糟的。每一條軌跡,都被標注成一份「閱卷意見」,既指出思路哪里站得住腳、哪里明顯跑偏,也給出一個 0~1 之間的整體分數。

基于這套數據,他們訓練了一個專門的「思考評分模型」——Agent-RRM。它不會只看最后一行答案,而是把整個過程從頭看到尾,然后輸出三樣東西:一段內部分析、一小段給 Agent 看的批評意見,再加上一個綜合分數。

舉個簡單的例子:

  • 兩條軌跡最后都答對了,但一條邏輯跳躍嚴重、工具亂用,只是誤打誤撞到達正確答案,那 Agent-RRM 可能只給個 0.3;
  • 另一條從一開始就分析清楚、什么時候該搜、什么時候該點進網頁、怎么利用信息都說得明明白白,這種思路就可能拿到 0.9。

就像老師改卷,不是只看「A/B/C/D」選了啥,還會看你中間的演算過程,給「過程分」。這一招的目標很明確:

教會 Agent「怎么想」「怎么用工具」,而不是教它「怎么猜對答案」。

統一文本批評和獎勵信號:Reagent 框架

有了會打「思維分」的 Agent-RRM,還要想清楚怎么把這些反饋喂回給 Agent。這就是 Reagent 框架要解決的事情:把「文字點評」和「分數獎勵」統一起來,用在智能體訓練里。



作者設計了三種用法,可以理解成三檔「加持程度」:

① 只加點評,不改模型(Reagent-C)

最輕的一種:不動 Agent 參數,只在推理時多一步「聽老師講評」。

大致流程就是:Agent 先做一遍題,Agent-RRM 看完給一小段 critique,指出關鍵問題,然后讓 Agent 在這段點評的基礎上重做一遍。這相當于給任何現成的大模型,外掛一個「老師幫你看一眼再交卷」的過程。

② 給獎勵加一條「過程分」(Reagent-R)

再往上走一步,就是把 Agent-RRM 打出來的分數,當成額外獎勵加進來。

以前的訓練只看「做對 / 做錯」那一分,現在變成「結果對錯 + 過程好壞」兩條線一起算:哪怕最后沒完全做對,只要思路清晰、工具用得合理,也不會被當作垃圾樣本一票否決。這對長鏈、多工具的任務特別重要,可以緩解那種「一不小心就全是 0 分」的獎勵稀疏問題。

③ 把「第一次想」和「批評后再想」一起訓(Reagent-U)

最強的一檔,是這篇文章重點強調的 Reagent-U。它一口氣把兩種反饋都用上:

  • 一方面,讓 Agent 學會第一次就少犯低級錯誤;
  • 另一方面,也教它「聽完批評以后,怎樣更聰明地改答案」。

訓練時,同一個問題會有「首答」和「聽完點評后的再答」兩條軌跡,它們都拿到「結果獎勵 + 過程分數」,一起放進同一個訓練循環里優化。這樣做的好處是:模型不會只在某一種模式上刷分,而是整體上把「想清楚」「用好工具」「能根據反饋修正自己」這幾件事,一起學進去。

實際部署時,Reagent-U 又不用再依賴外部的 Agent-RRM 提點評,直接就能像普通 Agent 一樣用 —— 那些「老師改卷時說過的話」,已經被揉進模型參數里了。

這套設計帶來了什么提升?

在實驗里,作者主要看了三件事:文字點評本身有沒有用、過程分數能不能幫 RL 學得更好、統一之后是不是有效提升。





先看最輕量的那種:只加一段文本點評、不改模型參數。結果表明,在不少數學和搜索任務上,「聽完一段 Agent-RRM 的批評再答一次」,確實能穩定把正確率拉上去。

再把過程分數加進訓練里之后,Agent 不是只會去迎合最后那一個對錯信號,而是更愿意走那些「雖然這次沒完全做成,但整體思路是對的」的方向。

最后,當文本批評和獎勵分數在 Reagent-U 里統一起來時,提升就更直觀了:

在 GAIA 這個通用 Agent 基準的文本子集上,基于 8B 模型的 Reagent-U,可以把平均成績拉到43.7%,基本追上甚至部分超過了一些更大參數量的開源 Agent。在 WebWalkerQA、HLE、xbench 等其他復雜任務上,也普遍比「只看終局獎勵」的版本更穩,更不容易被「瞎蒙對」或者「瞎忙活」帶偏。

作者還測試了模型在 GAIA 全集上的表現,面對多模態的通用 agent 任務,Reagent-U 也依然能打。



港中文聯合美團這套 Reagent 框架,把「老師給過程打分」這件事,真正搬進了 Agent 訓練里。結果證明,只要能看懂、能評價思考過程,8B 級別的 Agent 也有機會在很多復雜任務上打出和大模型一樣好看的成績單。

更多細節請參考論文原文。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
炸裂!比爾·蓋茨自爆出軌20多次,一度被愛潑斯坦勒索

炸裂!比爾·蓋茨自爆出軌20多次,一度被愛潑斯坦勒索

新民周刊
2026-06-14 13:05:15
伊朗11名世界杯成員被美拒簽

伊朗11名世界杯成員被美拒簽

體壇周報
2026-06-14 02:43:18
鄢姣,金融監管總局辦公廳副主任,皮膚白皙,顏值不輸當紅女明星

鄢姣,金融監管總局辦公廳副主任,皮膚白皙,顏值不輸當紅女明星

李昕言溫度空間
2026-06-14 08:27:32
好恐怖的天倫之樂!女子曬家庭聚會,面和心不和被演繹得淋漓盡致

好恐怖的天倫之樂!女子曬家庭聚會,面和心不和被演繹得淋漓盡致

林林先生
2026-06-13 10:25:06
警鐘長鳴!國務院安委辦通報典型案例 商洛高速橋梁垮塌等事故細節公布

警鐘長鳴!國務院安委辦通報典型案例 商洛高速橋梁垮塌等事故細節公布

極目新聞
2026-06-14 09:38:49
自我葬送的冠軍!三重致命崩盤,揭秘馬刺總決賽潰敗真正真相

自我葬送的冠軍!三重致命崩盤,揭秘馬刺總決賽潰敗真正真相

君馬體育
2026-06-14 13:55:54
搶在王毅專機起飛前,烏蘭巴托那邊的小動作已經擺上桌

搶在王毅專機起飛前,烏蘭巴托那邊的小動作已經擺上桌

混沌錄
2026-06-14 00:30:26
多國嘉賓:在中國,人權不是抽象概念,而是扎根現實的民生福祉

多國嘉賓:在中國,人權不是抽象概念,而是扎根現實的民生福祉

中國日報網
2026-06-13 17:07:04
移民英國真相大白后,劉鑾雄近況曝光,難怪甘比要拋頭露面當網紅

移民英國真相大白后,劉鑾雄近況曝光,難怪甘比要拋頭露面當網紅

以茶帶書
2026-06-13 14:27:01
詹俊也犯了巨大巨大失誤!將美國歌手誤認為是小羅:實在是太像了

詹俊也犯了巨大巨大失誤!將美國歌手誤認為是小羅:實在是太像了

風過鄉
2026-06-14 07:49:53
原諒林丹10年,謝杏芳定居西班牙夫妻分居,10歲兒子才是未來依靠

原諒林丹10年,謝杏芳定居西班牙夫妻分居,10歲兒子才是未來依靠

攬星河的筆記
2026-06-13 16:35:03
SpaceX上市馬斯克成首位萬億富豪,中國卻用長征五號每次只打10顆衛星:太空競賽的真正差距

SpaceX上市馬斯克成首位萬億富豪,中國卻用長征五號每次只打10顆衛星:太空競賽的真正差距

商道童言
2026-06-13 20:05:25
市占率跌破10%!日系三巨頭在華遇挫:豪擲110億赴印度建廠

市占率跌破10%!日系三巨頭在華遇挫:豪擲110億赴印度建廠

快科技
2026-06-10 10:15:12
總決賽命中率34.3%!福克斯擁抱祝賀唐斯布朗奪冠

總決賽命中率34.3%!福克斯擁抱祝賀唐斯布朗奪冠

體壇周報
2026-06-14 13:58:15
白鹿的中專學歷實錘了!?

白鹿的中專學歷實錘了!?

八卦瘋叔
2026-06-14 10:56:48
網友曬出清北鵝腿群聊天記錄,一群學生刷:姨姨,腿腿,餓餓

網友曬出清北鵝腿群聊天記錄,一群學生刷:姨姨,腿腿,餓餓

映射生活的身影
2026-06-13 18:24:17
“寶媽”回鄉考編排名第一,沒等來入職通知卻被別人遞補,多次維權后崗位直接取消;相關部門立案調查

“寶媽”回鄉考編排名第一,沒等來入職通知卻被別人遞補,多次維權后崗位直接取消;相關部門立案調查

大風新聞
2026-06-13 18:34:21
好消息,克里米亞孤島基本成型

好消息,克里米亞孤島基本成型

李未熟擒話2
2026-06-14 08:00:26
中國14億人挑不出11個會踢球的?董路:印度挑不出1個會跳水的

中國14億人挑不出11個會踢球的?董路:印度挑不出1個會跳水的

念洲
2026-06-14 10:35:26
文班:這是我人生最深刻一課,總決賽大部分時間是我們統治著比賽

文班:這是我人生最深刻一課,總決賽大部分時間是我們統治著比賽

懂球帝
2026-06-14 13:01:11
2026-06-14 14:23:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
13246文章數 142669關注度
往期回顧 全部

科技要聞

Anthropic最強模型被禁,傳亞馬遜通風報信

頭條要聞

男友花94500元買"全國僅兩只"LV鴕鳥皮包 女友發現問題

頭條要聞

男友花94500元買"全國僅兩只"LV鴕鳥皮包 女友發現問題

體育要聞

8年8隊奪冠,鄧肯那句話,現在還給了馬刺

娛樂要聞

具俊曄曝大S離世前虛弱照,難怪小s退讓

財經要聞

金價跌至900元關口,大媽又來抄底了!

汽車要聞

深藍S07華為乾崑激光版增程車型上市 限時15.49萬元起

態度原創

家居
親子
本地
健康
公開課

家居要聞

空間微調 移形換境

親子要聞

本想套路閨女吃藥,沒想到被女兒套路,現場畫面太尷尬!

本地新聞

AK劉彰邂逅河北南大港濕地

老人、小孩、孕婦,吃粽子有啥風險

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版