網易首頁 > 網易號 > 正文 申請入駐

華為泰勒實驗室提出SHAPE,給LLM推理裝了個「推理稅」

0
分享至



用強化學習訓練大模型做數學推理,一個經典的尷尬局面是:模型要么答對了但廢話連篇,要么寫了一大堆最后答錯了,而你根本不知道它到底在哪一步走偏的。

來自華為泰勒實驗室、北京大學和上海財經大學的研究團隊提出了SHAPE(Stage-aware Hierarchical Advantage via Potential Estimation),給推理鏈裝上了一套「里程碑 + 推理稅」機制——不僅告訴模型每一步推得對不對,還讓它為啰嗦付出代價。結果是:準確率平均提升 3%,token 消耗直降 30%。

該工作已被ACL 2026 主會接收。



  • 論文標題:SHAPE: Stage-aware Hierarchical Advantage via Potential Estimation for LLM Reasoning
  • 論文鏈接:https://arxiv.org/abs/2604.06636

1. 痛點:模型推理的「稀疏信號」困境

目前強化學習的主流做法(GRPO)只在推理鏈的最末尾給一個對/錯的信號。這就好比一個學生寫了三頁解題過程,老師只在最后批一個「?」——學生完全不知道自己哪一步出了問題。

過程獎勵模型(PRM)可以給每一步打分,但標注成本極高,而且模型容易鉆空子(reward hacking)。近年來 MRT、SPO 等方法另辟蹊徑:通過讓模型在推理中間多次「快速試答」來估計當前走到哪了,以此構造中間信號。但這些方法各有各的短板。

團隊認為,一步好的推理應該同時滿足三件事:1??得有實質進展(不能原地踏步)、2??越難的階段突破越值錢(雪中送炭>錦上添花:困惑時的突破更重要)、3??越簡潔越好(同樣的進展用更少的字完成應該得到獎勵)。



現有方法要么只管進展不管效率,要么只加長度懲罰但缺乏語義引導。SHAPE 就是為了把這三件事統一到一個框架里。

2. SHAPE 怎么做的?



整個框架分三步走:(A)切段+估勢能 → (B)段級獎勵計算 → (C)token 級信用再分配。

Step A:切段 + 估「推理勢能」









工程上,團隊用vLLM的Prefix Caching避免重復算共享前綴,rollout限制在max_tokens=16,開銷可控。

Step B:段級獎勵——「推理稅」機制







代入后,每段的優勢函數為:







第二項就是「推理稅」,它同時干了兩件事:稅基是當前勢能——推理早期勢能低,稅幾乎為零,放心探索;后期勢能高,稅就重了,不許靠反復確認來刷分。稅率跟段落長度正相關——越啰嗦稅越高,逼模型精練表達。一個動態折扣因子,同時搞定了階段感知和效率約束。

Step C:token 級信用再分配







3. 實驗結果

3.1 主實驗

三個基座模型(DeepSeek-R1-Distill-Qwen-1.5B、DeepScaleR-1.5B、Qwen3-4B),五個數學推理 benchmark,全面評估。



  • 跨模型一致性:無論 1.5B 還是 4B 規模,SHAPE 均同時提升準確率并降低 token 消耗。
  • 準確率:Overall 平均提升約 3%,其中 DeepScaleR-1.5B 在 AIME 2024 上提升 7.0 個百分點(38.6% → 45.6%),Qwen3-4B 在 MinervaMATH 上提升 6.2 個百分點。
  • Token 效率:Overall 平均減少約 30%,最大降幅達 38.7%(DeepSeek-1.5B on MinervaMATH)。



訓練曲線進一步佐證了這一結論:SHAPE 在訓練全程保持準確率領先,同時驅動 response 長度持續下降,兩條曲線的走勢完美體現了又準又快的雙重優化目標。

3.2 消融實驗



消融實驗揭示了幾個關鍵發現:

  • 熵分段(EBS)的移除導致 token 消耗增加約 3%,驗證了語義對齊的分段策略優于硬規則。
  • Token 級信用再分配(TCR)的移除導致準確率下降達 2.0 個百分點(AIME 2025),表明細粒度信號在關鍵決策點的放大作用不可或缺。



4. 深度分析





進一步地,經過 SHAPE 訓練后,模型在勢能增益來源分布上呈現了顯著變化:來自低勢能狀態的增益貢獻占比從初始的 40.6% 上升到 44.4%,而來自高勢能狀態的貢獻從 10.5% 降至 3%。模型學會了把腦子集中在最需要突破的地方。



自適應計算。SHAPE 按題目難度動態分配 token 預算,長度-難度縮放斜率比 GRPO 更陡、方差更小,這意味著:SHAPE 不是簡單地「寫得少」,而是精準地根據題目難度分配 token 預算。



消除推理坍縮。GRPO 在難題上存在一個顯著的病理現象:response 長度分布在 32k 上下文上限處出現異常 spike。SHAPE 基本消除了這類現象——分布曲線在遠低于上限處就平滑衰減至零。這進一步印證了推理稅的效力:當模型在某條推理路徑上持續消耗 token 卻無實質進展時,累積的稅會迫使模型及時止損。



5. 總結

SHAPE 用一個統一的數學框架——動態折扣的勢函數塑形——同時解決了過程監督中的三個核心問題:勢能增益度量、階段難度感知和 token 效率約束。SHAPE 的核心貢獻不僅在于具體的準確率和效率數字,更在于提出了推理稅這一優雅的機制設計范式,為理解和優化 LLM 推理過程提供了新的理論透鏡。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
東風導彈泄密案!間諜郭萬鈞一家三口,全部被處以死刑

東風導彈泄密案!間諜郭萬鈞一家三口,全部被處以死刑

番外行
2026-03-31 08:28:28
搶走王朔,睡遍京圈,定居國外9年的“壞種”徐靜蕾,成最終贏家

搶走王朔,睡遍京圈,定居國外9年的“壞種”徐靜蕾,成最終贏家

日落于西
2026-04-15 16:04:57
造成毛岸英犧牲的罪魁禍首,讓毛主席痛恨得罪人,他們下場如何?

造成毛岸英犧牲的罪魁禍首,讓毛主席痛恨得罪人,他們下場如何?

風笛悠揚聲
2025-12-04 10:08:06
9歲女童確診胰腺癌,醫生怒問父母:怎能天天給孩子吃這些?

9歲女童確診胰腺癌,醫生怒問父母:怎能天天給孩子吃這些?

健康之光
2026-04-22 17:37:49
轟的一聲,日本傳來一聲巨大爆響,自衛隊傷亡慘重,尸體橫倒豎臥

轟的一聲,日本傳來一聲巨大爆響,自衛隊傷亡慘重,尸體橫倒豎臥

青煙小先生
2026-04-24 09:55:09
戰事滿兩月,伊朗藏紅花出口頭部企業的生活:食物充足,燃料充足,但生意斷了

戰事滿兩月,伊朗藏紅花出口頭部企業的生活:食物充足,燃料充足,但生意斷了

紅星新聞
2026-04-28 17:07:58
我國最容易叫錯的6個城市,念對一個算有文化,認識一半算你厲害

我國最容易叫錯的6個城市,念對一個算有文化,認識一半算你厲害

長風文史
2026-04-27 20:19:33
夢劇場的三重門:一場2-1,揭開曼聯重建的終極命題!

夢劇場的三重門:一場2-1,揭開曼聯重建的終極命題!

落夜足球
2026-04-28 10:28:25
求求這部劇的編劇,別再費心刻畫“窮人”了,真沒窮人敢這么豪橫

求求這部劇的編劇,別再費心刻畫“窮人”了,真沒窮人敢這么豪橫

八卦南風
2026-04-21 18:12:41
人老有3怕?一怕跌倒,另外2怕,可惜多數老人都沒意識到!

人老有3怕?一怕跌倒,另外2怕,可惜多數老人都沒意識到!

周哥一影視
2026-04-28 12:11:15
反轉!科爾拒千萬年薪,不是嫌少,而是不想陪庫里“浪費時間”?

反轉!科爾拒千萬年薪,不是嫌少,而是不想陪庫里“浪費時間”?

體育大朋說
2026-04-28 10:20:32
涉嫌嚴重違紀違法!中船重工原副總經理被查

涉嫌嚴重違紀違法!中船重工原副總經理被查

國際船舶網
2026-04-28 13:45:16
生活由普京擔保,來中國療養,葉利欽人生中最后那8年過得怎樣?

生活由普京擔保,來中國療養,葉利欽人生中最后那8年過得怎樣?

云霄紀史觀
2026-04-25 20:20:46
印度男子扛亡姐尸骸去銀行取款,視頻瘋傳:當事人扛著遺體在烈日下走約3公里,帶到銀行柜臺,證明“她已經死了”;當地警方和政府介入

印度男子扛亡姐尸骸去銀行取款,視頻瘋傳:當事人扛著遺體在烈日下走約3公里,帶到銀行柜臺,證明“她已經死了”;當地警方和政府介入

揚子晚報
2026-04-28 19:57:26
俄羅斯就是打仗的命:這個烏克蘭沒倒,又一個烏克蘭上來了!

俄羅斯就是打仗的命:這個烏克蘭沒倒,又一個烏克蘭上來了!

阿七說史
2026-04-27 15:27:32
本想逼宮老俞,卻讓臉面碎了一地!甄選4大主播的離職瓜變味了

本想逼宮老俞,卻讓臉面碎了一地!甄選4大主播的離職瓜變味了

觀察鑒娛
2026-04-26 13:11:53
最強Mate來了!華為Mate 90提前亮相

最強Mate來了!華為Mate 90提前亮相

科技堡壘
2026-04-28 13:38:00
趙又廷快愁死!對著黃曉明大吐苦水:我女兒拿臉直接解開我的手機

趙又廷快愁死!對著黃曉明大吐苦水:我女兒拿臉直接解開我的手機

一盅情懷
2026-04-28 12:24:31
美國破防!被中國反鎖在門外的,終于輪到自己了

美國破防!被中國反鎖在門外的,終于輪到自己了

李榮茂
2026-04-27 19:18:38
以師之道還施彼身!約老師避實擊虛,掘金欲絕境翻盤再創歷史

以師之道還施彼身!約老師避實擊虛,掘金欲絕境翻盤再創歷史

毒舌NBA
2026-04-28 19:29:14
2026-04-28 20:59:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
12881文章數 142638關注度
往期回顧 全部

科技要聞

10億周活目標落空!傳OpenAI爆發內部分歧

頭條要聞

80多萬買的新房未交房成工人宿舍 業主看到排泄物崩潰

頭條要聞

80多萬買的新房未交房成工人宿舍 業主看到排泄物崩潰

體育要聞

季后賽最新局勢:雷霆4-0晉級首隊 4隊3-1

娛樂要聞

蔡卓妍官宣結婚,老公比她小10歲

財經要聞

政治局會議:加強算力網等規劃建設

汽車要聞

拒絕瘋狂套娃!現代艾尼氪金星長在未來審美點上

態度原創

親子
藝術
旅游
本地
公開課

親子要聞

拍了幾年的急救視頻,模特小朋友長大了!拍到異物卡喉氣道梗阻的急救方法更新了,氣道完全梗阻五次拍背+五...

藝術要聞

深圳極具未來感的“外星”建筑亮相

旅游要聞

大理不止“風花雪月”,這份“文明之約”等你來赴!

本地新聞

用青花瓷的方式,打開西溪濕地

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版