網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

華為泰勒實驗室提出SHAPE，給LLM推理裝了個「推理稅」

2026-04-28 16:10:00　來源: 機器之心Pro

河北舉報

0

分享至

用強化學習訓練大模型做數學推理，一個經典的尷尬局面是：模型要么答對了但廢話連篇，要么寫了一大堆最后答錯了，而你根本不知道它到底在哪一步走偏的。

來自華為泰勒實驗室、北京大學和上海財經大學的研究團隊提出了SHAPE（Stage-aware Hierarchical Advantage via Potential Estimation），給推理鏈裝上了一套「里程碑 + 推理稅」機制——不僅告訴模型每一步推得對不對，還讓它為啰嗦付出代價。結果是：準確率平均提升 3%，token 消耗直降 30%。

該工作已被ACL 2026 主會接收。

論文標題：SHAPE: Stage-aware Hierarchical Advantage via Potential Estimation for LLM Reasoning
論文鏈接：https://arxiv.org/abs/2604.06636

1. 痛點：模型推理的「稀疏信號」困境

目前強化學習的主流做法（GRPO）只在推理鏈的最末尾給一個對/錯的信號。這就好比一個學生寫了三頁解題過程，老師只在最后批一個「?」——學生完全不知道自己哪一步出了問題。

過程獎勵模型（PRM）可以給每一步打分，但標注成本極高，而且模型容易鉆空子（reward hacking）。近年來 MRT、SPO 等方法另辟蹊徑：通過讓模型在推理中間多次「快速試答」來估計當前走到哪了，以此構造中間信號。但這些方法各有各的短板。

團隊認為，一步好的推理應該同時滿足三件事：1??得有實質進展（不能原地踏步）、2??越難的階段突破越值錢（雪中送炭＞錦上添花：困惑時的突破更重要）、3??越簡潔越好（同樣的進展用更少的字完成應該得到獎勵）。

現有方法要么只管進展不管效率，要么只加長度懲罰但缺乏語義引導。SHAPE 就是為了把這三件事統一到一個框架里。

2. SHAPE 怎么做的？

整個框架分三步走：（A）切段+估勢能 → （B）段級獎勵計算 → （C）token 級信用再分配。

Step A：切段 + 估「推理勢能」

工程上，團隊用vLLM的Prefix Caching避免重復算共享前綴，rollout限制在max_tokens=16，開銷可控。

Step B：段級獎勵——「推理稅」機制

代入后，每段的優勢函數為：

第二項就是「推理稅」，它同時干了兩件事：稅基是當前勢能——推理早期勢能低，稅幾乎為零，放心探索；后期勢能高，稅就重了，不許靠反復確認來刷分。稅率跟段落長度正相關——越啰嗦稅越高，逼模型精練表達。一個動態折扣因子，同時搞定了階段感知和效率約束。

Step C：token 級信用再分配

3. 實驗結果

3.1 主實驗

三個基座模型（DeepSeek-R1-Distill-Qwen-1.5B、DeepScaleR-1.5B、Qwen3-4B），五個數學推理 benchmark，全面評估。

跨模型一致性：無論 1.5B 還是 4B 規模，SHAPE 均同時提升準確率并降低 token 消耗。
準確率：Overall 平均提升約 3%，其中 DeepScaleR-1.5B 在 AIME 2024 上提升 7.0 個百分點（38.6% → 45.6%），Qwen3-4B 在 MinervaMATH 上提升 6.2 個百分點。
Token 效率：Overall 平均減少約 30%，最大降幅達 38.7%（DeepSeek-1.5B on MinervaMATH）。

訓練曲線進一步佐證了這一結論：SHAPE 在訓練全程保持準確率領先，同時驅動 response 長度持續下降，兩條曲線的走勢完美體現了又準又快的雙重優化目標。

3.2 消融實驗

消融實驗揭示了幾個關鍵發現：

熵分段（EBS）的移除導致 token 消耗增加約 3%，驗證了語義對齊的分段策略優于硬規則。
Token 級信用再分配（TCR）的移除導致準確率下降達 2.0 個百分點（AIME 2025），表明細粒度信號在關鍵決策點的放大作用不可或缺。

4. 深度分析

進一步地，經過 SHAPE 訓練后，模型在勢能增益來源分布上呈現了顯著變化：來自低勢能狀態的增益貢獻占比從初始的 40.6% 上升到 44.4%，而來自高勢能狀態的貢獻從 10.5% 降至 3%。模型學會了把腦子集中在最需要突破的地方。

自適應計算。SHAPE 按題目難度動態分配 token 預算，長度-難度縮放斜率比 GRPO 更陡、方差更小，這意味著：SHAPE 不是簡單地「寫得少」，而是精準地根據題目難度分配 token 預算。

消除推理坍縮。GRPO 在難題上存在一個顯著的病理現象：response 長度分布在 32k 上下文上限處出現異常 spike。SHAPE 基本消除了這類現象——分布曲線在遠低于上限處就平滑衰減至零。這進一步印證了推理稅的效力：當模型在某條推理路徑上持續消耗 token 卻無實質進展時，累積的稅會迫使模型及時止損。

5. 總結

SHAPE 用一個統一的數學框架——動態折扣的勢函數塑形——同時解決了過程監督中的三個核心問題：勢能增益度量、階段難度感知和 token 效率約束。SHAPE 的核心貢獻不僅在于具體的準確率和效率數字，更在于提出了推理稅這一優雅的機制設計范式，為理解和優化 LLM 推理過程提供了新的理論透鏡。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

啟境把華為乾崑的技術，擰成了一股繩！

三一博士官方 2026-04-28 15:20:48
0 跟貼 0
蘋果折疊屏新機外形或效仿華為：Pura X Max今日開賣

快科技 2026-04-26 08:38:41
29 跟貼 29

為什么說華為乾崑智駕 ADS 5是“降維打擊”？就憑這三招嗎

嘻哈車 2026-04-26 15:29:29
1 跟貼 1

華為艙內激光雷達的深藍S07，更適合年輕人了

車業雜談 2026-04-26 19:15:49
1 跟貼 1
華為乾崑智駕 ADS 5正式發布，多項體驗實用功能升級

車圈薛可奈 2026-04-27 13:45:13
1 跟貼 1

伊朗轉變談判策略，自信占據主導地位，美方面臨更高要價

李紹先觀察 2026-04-28 13:11:35
1 跟貼 1

華為Pura X Max太闊了到底闊在哪里？這兩點就太闊了！

科技數碼說 2026-04-24 15:13:12
5 跟貼 5
華為三折疊開售日，現場沒有現貨，網友：不要玩合資車那套！

咔咔看生活 2026-04-27 10:13:45
0 跟貼 0

華為余承東首曝尊界新車型，預計售價200萬左右

快科技 2026-04-27 12:27:37
0 跟貼 0
首發被華為搶了！英偉達火速官宣適配DeepSeek V4

快科技 2026-04-26 08:38:35
0 跟貼 0
余承東怒批黑幕！揭開享界S9麋鹿測試真相

新浪財經 2026-04-28 19:18:16
1 跟貼 1
2026北京車展必逛：華為智擎展臺，看懂智能汽車的未來

科技客評 2026-04-26 19:09:00
1 跟貼 1
全球5G標準必要專利全球排名出爐，華為強勢斷層第一！

快科技 2026-04-28 16:17:16
4 跟貼 4
華為現在要格外重視產品顏值

快科技 2026-04-28 16:16:41
0 跟貼 0
余承東：智界V9 Ultra版訂單超50%

界面新聞 2026-04-26 15:19:23
0 跟貼 0
余承東受傷被黑必須澄清

小魚二動漫 2026-04-27 00:45:32
0 跟貼 0
站在對手的角度去思考博弈這次華為乾崑的升級有點猛

BAO愛車工作室 2026-04-27 10:51:50
3 跟貼 3
含華量超高，首發即王炸啟境GT7

車圈薛可奈 2026-04-27 16:53:42
1 跟貼 1
90后“稚暉君”，任上緯新材董事長！他是原華為天才少年

每日經濟新聞 2025-11-26 14:49:35
0 跟貼 0
深圳最狠的地方：每隔十年，就親手“殺死”自己一次

飯統戴老板 2026-01-09 17:54:56
0 跟貼 0
華為蘋果OPPO熱門小平板不會選？看我實測就知道了

數科先驅 2026-04-28 11:39:35
0 跟貼 0
一樣的大廠電芯，不一樣的安全？這事沒你想得那么簡單

汽車相對論 2026-04-28 19:35:19
0 跟貼 0
華為Pura 90系列上手！2 億長焦打鳥絕活，智拍秒變攝影高手

鋒潮評測 2026-04-28 09:52:47
7 跟貼 7
黃仁勛：請從容接受社會的毒打韌性只能在磨練中擁有

每日經濟新聞 2026-01-08 13:50:38
0 跟貼 0
猛士X華為乾崑，智能越野第一車來了

波帆說車 2026-04-27 14:34:34
6 跟貼 6
華為多機型圍剿蘋果：暢享90 Pro Max力壓iPhone 17 Pro

快科技 2026-04-26 08:38:41
0 跟貼 0
這個世界有沒有完美的人？

挑戰你的想象力 2026-04-27 10:30:46
1 跟貼 1
華為再造“旗艦大六座SUV”，奕境X9憑何出位？

電動勢 2026-04-28 19:20:43
0 跟貼 0
華為AI眼鏡上手！朋友都說帥爆了，都怪我顏值太高

雷科技 2026-04-20 23:25:15
0 跟貼 0
上海迪士尼回應游客勸阻吸煙被打：園區沒有禁煙；被打男子發聲：對方已賠錢和解

中國新聞周刊 2026-04-27 14:25:00
15229 跟貼 15229
深度解讀Deepseek-V4：注意力壓縮 /1M 上下文/ MoE架構

盧菁老師 2026-04-27 02:14:19
0 跟貼 0
男人的主動全靠女人給信號，準到嚇人，別再傻傻被爽約了！

浩渺說生活 2026-04-27 09:10:32
0 跟貼 0
347網紅題目，小學數學就能做，你看看會不會

我服子佩 2026-04-27 17:42:37
1 跟貼 1
伊朗戰術精妙：帥化民解讀伊朗軍事策略

一寸時光a 2026-04-27 03:26:01
2 跟貼 2
傳統套餐“標準有余，個性不足” 中國聯通賈志強：用戶需求正轉向好用、個性、主動

每日經濟新聞 2026-04-28 19:28:11
0 跟貼 0
網傳深圳東部華僑城結業、閉園？最新回應：不實

魯中晨報 2026-04-28 17:08:10
77 跟貼 77
浪姐二公贏了的反倒淘汰？規則把流量寫直白

骨子里的一身傲氣 2026-04-27 03:36:59
1 跟貼 1
ICLR 2026｜MathForge：用難題驅動強化學習，提升大模型數學推理

機器之心Pro 2026-04-27 12:16:24
0 跟貼 0
南都報道后，區長現場督辦！廣州天河這條路“驚心”變順心

南方都市報 2026-04-28 15:12:23
131 跟貼 131
360印度競賽題：題目異常簡單，這次瞪眼法竟然派上用場了

我服子佩 2026-04-28 11:28:19
1 跟貼 1

東風導彈泄密案！間諜郭萬鈞一家三口，全部被處以死刑

東風導彈泄密案！間諜郭萬鈞一家三口，全部被處以死刑

番外行

2026-03-31 08:28:28

搶走王朔，睡遍京圈，定居國外9年的“壞種”徐靜蕾，成最終贏家

搶走王朔，睡遍京圈，定居國外9年的“壞種”徐靜蕾，成最終贏家

日落于西

2026-04-15 16:04:57

造成毛岸英犧牲的罪魁禍首，讓毛主席痛恨得罪人，他們下場如何？

造成毛岸英犧牲的罪魁禍首，讓毛主席痛恨得罪人，他們下場如何？

風笛悠揚聲

2025-12-04 10:08:06

9歲女童確診胰腺癌，醫生怒問父母：怎能天天給孩子吃這些？

9歲女童確診胰腺癌，醫生怒問父母：怎能天天給孩子吃這些？

健康之光

2026-04-22 17:37:49

轟的一聲，日本傳來一聲巨大爆響，自衛隊傷亡慘重，尸體橫倒豎臥

轟的一聲，日本傳來一聲巨大爆響，自衛隊傷亡慘重，尸體橫倒豎臥

青煙小先生

2026-04-24 09:55:09

戰事滿兩月，伊朗藏紅花出口頭部企業的生活：食物充足，燃料充足，但生意斷了

戰事滿兩月，伊朗藏紅花出口頭部企業的生活：食物充足，燃料充足，但生意斷了

紅星新聞

2026-04-28 17:07:58

我國最容易叫錯的6個城市，念對一個算有文化，認識一半算你厲害

我國最容易叫錯的6個城市，念對一個算有文化，認識一半算你厲害

長風文史

2026-04-27 20:19:33

夢劇場的三重門：一場2-1，揭開曼聯重建的終極命題！

夢劇場的三重門：一場2-1，揭開曼聯重建的終極命題！

落夜足球

2026-04-28 10:28:25

求求這部劇的編劇，別再費心刻畫“窮人”了，真沒窮人敢這么豪橫

求求這部劇的編劇，別再費心刻畫“窮人”了，真沒窮人敢這么豪橫

八卦南風

2026-04-21 18:12:41

人老有3怕？一怕跌倒，另外2怕，可惜多數老人都沒意識到！

人老有3怕？一怕跌倒，另外2怕，可惜多數老人都沒意識到！

周哥一影視

2026-04-28 12:11:15

反轉！科爾拒千萬年薪，不是嫌少，而是不想陪庫里“浪費時間”？

反轉！科爾拒千萬年薪，不是嫌少，而是不想陪庫里“浪費時間”？

體育大朋說

2026-04-28 10:20:32

涉嫌嚴重違紀違法！中船重工原副總經理被查

涉嫌嚴重違紀違法！中船重工原副總經理被查

國際船舶網

2026-04-28 13:45:16

生活由普京擔保，來中國療養，葉利欽人生中最后那8年過得怎樣？

生活由普京擔保，來中國療養，葉利欽人生中最后那8年過得怎樣？

云霄紀史觀

2026-04-25 20:20:46

印度男子扛亡姐尸骸去銀行取款，視頻瘋傳：當事人扛著遺體在烈日下走約3公里，帶到銀行柜臺，證明“她已經死了”；當地警方和政府介入

印度男子扛亡姐尸骸去銀行取款，視頻瘋傳：當事人扛著遺體在烈日下走約3公里，帶到銀行柜臺，證明“她已經死了”；當地警方和政府介入

揚子晚報

2026-04-28 19:57:26

俄羅斯就是打仗的命：這個烏克蘭沒倒，又一個烏克蘭上來了！

俄羅斯就是打仗的命：這個烏克蘭沒倒，又一個烏克蘭上來了！

阿七說史

2026-04-27 15:27:32

本想逼宮老俞，卻讓臉面碎了一地！甄選4大主播的離職瓜變味了

本想逼宮老俞，卻讓臉面碎了一地！甄選4大主播的離職瓜變味了

觀察鑒娛

2026-04-26 13:11:53

最強Mate來了！華為Mate 90提前亮相

最強Mate來了！華為Mate 90提前亮相

科技堡壘

2026-04-28 13:38:00

趙又廷快愁死！對著黃曉明大吐苦水：我女兒拿臉直接解開我的手機

趙又廷快愁死！對著黃曉明大吐苦水：我女兒拿臉直接解開我的手機

一盅情懷

2026-04-28 12:24:31

美國破防！被中國反鎖在門外的，終于輪到自己了

美國破防！被中國反鎖在門外的，終于輪到自己了

李榮茂

2026-04-27 19:18:38

以師之道還施彼身！約老師避實擊虛，掘金欲絕境翻盤再創歷史

以師之道還施彼身！約老師避實擊虛，掘金欲絕境翻盤再創歷史

毒舌NBA

2026-04-28 19:29:14

機器之心Pro

專業的人工智能媒體

12881文章數 142638關注度

往期回顧全部

科技要聞

10億周活目標落空！傳OpenAI爆發內部分歧

頭條要聞

80多萬買的新房未交房成工人宿舍業主看到排泄物崩潰

頭條要聞

80多萬買的新房未交房成工人宿舍業主看到排泄物崩潰

體育要聞

季后賽最新局勢：雷霆4-0晉級首隊 4隊3-1

娛樂要聞

蔡卓妍官宣結婚，老公比她小10歲

財經要聞

政治局會議：加強算力網等規劃建設

汽車要聞

拒絕瘋狂套娃！現代艾尼氪金星長在未來審美點上

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

親子

藝術

旅游

本地

公開課

親子要聞

拍了幾年的急救視頻，模特小朋友長大了！拍到異物卡喉氣道梗阻的急救方法更新了，氣道完全梗阻五次拍背+五...

藝術要聞

深圳極具未來感的“外星”建筑亮相

旅游要聞

大理不止“風花雪月”，這份“文明之約”等你來赴！

本地新聞

用青花瓷的方式，打開西溪濕地

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
七個無法存下錢的壞習慣
李彥宏：百度離破產30天

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版