亚洲中文字幕乱码亚洲-蜜桃成熟视频在线观看-免费中文字幕视频在线-中国五十路熟妇洗澡视频-亚洲av伊人啪啪c-国产精品成人一区二区-国产自拍视频一区在线观看-成人一区不卡二区三区四区-亚洲情精品中文字幕99在线

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

ICLR 2026 |?越推越快!?首個面向「Test-Time Scaling」的投機(jī)解碼基準(zhǔn)

0
分享至


SpecTTS-Bench:首個面向「Test-Time Scaling」的投機(jī)解碼基準(zhǔn),收割冗余紅利,越推越快!

本文由來自香港城市大學(xué)、華為的多位研究者共同完成。第一作者為來自香港城市大學(xué)的博士生孫圣印和來自華為的研究員李一鳴,通信作者為來自香港城市大學(xué)的助理教授馬辰。

在推理大模型的應(yīng)用里,一個樸素但有效的策略正在成為共識:推理階段擴(kuò)展(Test-Time Scaling, TTS)—— 在推理階段額外分配計算(例如反復(fù)思考,多輪推理),往往能顯著提升推理大模型解決復(fù)雜問題的正確率與穩(wěn)健性。但TTS應(yīng)用于推理大模型的代價也同樣明顯:大量冗余、重復(fù)的推理軌跡被生成出來,吞噬了推理時延與算力預(yù)算,讓模型的“更聰明”變得“不夠劃算”。

基于此,本文提出了首個面向TTS的投機(jī)解碼(Speculative Decoding)加速綜合基準(zhǔn)。評測結(jié)果顯示,在結(jié)構(gòu)化且重復(fù)密集的 TTS 場景里,樸素的N-gram方法更能精準(zhǔn)“吃到”重復(fù)帶來的紅利,釋放出不容忽視的加速潛力。

論文標(biāo)題:Scaling Up, Speeding Up: A Benchmark of Speculative Decoding for Efficient LLM Test-Time Scaling


論文地址:
https://arxiv.org/abs/2509.04474

論文代碼:
https://github.com/sunshy-1/SpecTTS-Bench


圖1 TTS的過程中大量冗余和重復(fù)的推理軌跡示例。

1. 「疊床架屋」為什么 TTS 會“慢得不劃算”?

隨著大模型能力的持續(xù)提升,業(yè)界逐漸意識到一個重要現(xiàn)象——即所謂的 Scaling Law 在推理階段同樣成立。簡單來說,只要在推理階段投入更多的計算資源,就能夠在一定程度上換取更強(qiáng)的復(fù)雜推理能力。換句話說,即便模型參數(shù)規(guī)模固定,通過擴(kuò)大推理時的“思考深度”或“思考廣度”,同樣可能獲得更高質(zhì)量的輸出。典型方式包括:

? Best-of-N:針對同一個問題,模型生成多條不同的推理路徑或候選答案,然后再通過評分機(jī)制或后驗判斷,選出最優(yōu)方案;

? Multi-round Thinking:讓模型以多輪“想—寫—再想—再寫”的形式進(jìn)行自我復(fù)審和反思,不斷修正先前的推理錯誤或補(bǔ)充遺漏的邏輯。

然而,這種范式并非沒有代價。它的核心問題在于推理效率極低,往往會出現(xiàn)所謂的“疊床架屋式冗余計算”。在多輪或多樣采樣的過程中,模型往往會反復(fù)生成類似的分析開頭、重復(fù)的中間結(jié)論、固定化的檢查步驟,甚至對前文內(nèi)容進(jìn)行機(jī)械式重述。這些內(nèi)容雖然表面上增加了推理“長度”,但實際信息增益有限。結(jié)果就是,TTS的推理過程不可避免地充斥著大量重復(fù)和無效的計算軌跡——算力在自說自話的過程里被浪費(fèi)掉了。這也帶來了一個頗為尷尬的現(xiàn)實:我們確實找到了提升大模型上限、激發(fā)其潛在推理能力的有效路徑,但同時必須付出極高的計算代價與延遲成本。換言之,TTS 在質(zhì)量與效率之間形成了難以調(diào)和的矛盾——它能讓模型“更聰明”,卻讓推理過程“慢得不劃算”。

2. 「以小博大」:投機(jī)解碼如何破解“慢思考”困局?

面對TTS帶來的巨大算力消耗,投機(jī)解碼提供了一種高效的計算范式,旨在緩解大模型推理過程中的訪存瓶頸。其核心機(jī)制在于解耦了“生成”與“驗證”兩個過程:系統(tǒng)首先利用一個參數(shù)量較小、推理速度極快的“草稿模型”(Draft Model)預(yù)先生成一系列候選 Token,隨后由參數(shù)量龐大的“目標(biāo)模型”(Target Model)以并行計算的方式對這些候選序列進(jìn)行批量驗證。由于大模型在處理單個 Token 和并行處理多個 Token 時的延遲差異較小,這種“預(yù)測-驗證”機(jī)制能夠顯著減少目標(biāo)模型昂貴的串行前向傳播次數(shù),從而在保證輸出分布與目標(biāo)模型完全一致(即無損加速)的前提下,大幅提升整體推理吞吐量。

在TTS的具體實踐中,無論是通過Best-of-N尋找最優(yōu)解,還是通過多輪迭代進(jìn)行自我修正,其計算過程本質(zhì)上都伴隨著大量的文本重復(fù)。例如,在生成多個推理路徑時,不同樣本間往往共享著長段的公共前綴或標(biāo)準(zhǔn)化的思維模板;而在迭代修正過程中,模型又不可避免地需要復(fù)述上下文或?qū)扔形谋具M(jìn)行微調(diào)。這種由采樣策略和迭代機(jī)制直接導(dǎo)致的重復(fù)性,恰恰是投機(jī)解碼能夠利用的最大紅利。內(nèi)容的高頻重復(fù)顯著降低了預(yù)測難度,使得草稿模型能夠以極高的命中率通過驗證。因此,TTS 場景下算力擴(kuò)張所帶來的文本冗余,反而在投機(jī)解碼的機(jī)制下轉(zhuǎn)化為加速推理的關(guān)鍵杠桿。


圖2 針對高效TTS的投機(jī)解碼方法框架。

3. 「SpecTTS-Bench」首個面向 TTS 的投機(jī)解碼評測基準(zhǔn)

為了系統(tǒng)性地量化投機(jī)解碼在TTS推理場景下的效能,本文構(gòu)建了首個面向 TTS 的投機(jī)解碼評測基準(zhǔn)。該基準(zhǔn)不僅制定了統(tǒng)一且嚴(yán)格的實驗協(xié)議,更全面覆蓋了當(dāng)前最具代表性的兩大 TTS 范式:旨在通過廣度搜索尋找最優(yōu)解的 Best-of-N 采樣,以及通過深度迭代提升推理質(zhì)量的多輪思考。在投機(jī)解碼方法論的維度上,本文涵蓋了多樣化的技術(shù)路徑,包含如下四大類:

? 基于模型(Model-based)的方法,即經(jīng)典的利用同源小模型生成候選序列、再由目標(biāo)模型驗證的范式;

? 基于訓(xùn)練(Training-based)的方法,側(cè)重于通過特定訓(xùn)練優(yōu)化推測器或策略,使其更緊密地貼合目標(biāo)模型的分布特征;

? 基于 N-gram(N-gram-based)的方法,直接利用文本統(tǒng)計規(guī)律中的重復(fù)模式進(jìn)行極低成本的快速預(yù)測。

4. 「群雄逐鹿」九種投機(jī)解碼方法在兩類主流TTS框架中的統(tǒng)一評測

本基準(zhǔn)對九種投機(jī)解碼方法在兩類主流 TTS框架中進(jìn)行了統(tǒng)一評測,涵蓋 Best-of-N(圖3)與多輪思考(圖4)兩大典型場景。實驗選取了DeepSeek-R1-Distill-Llama-8B(DSL-8B)和 Qwen3-8B(QW3-8B)模型,在 AIME24/25、MATH500 及GPQA 等高難度推理基準(zhǔn)上對比了各方法的平均接受Token數(shù)(MAT)與端到端加速比(Speed)。

評測結(jié)果揭示了一個關(guān)鍵發(fā)現(xiàn):在結(jié)構(gòu)化且重復(fù)密集的 TTS 場景中,能夠利用歷史信息的非訓(xùn)練N-gram方法展現(xiàn)出驚人的適應(yīng)性。如圖3所示,在 DSL-8B (T=0) 的貪婪解碼設(shè)定下,SAM方法表現(xiàn)尤為亮眼,其在 GPQA 任務(wù)上取得了3.57的MAT和3.20×的加速比,整體評測中也保持了平均2.66×的穩(wěn)健加速。這表明,TTS 推理過程中產(chǎn)生的思維鏈包含大量重復(fù)的推理步驟和格式化表達(dá),樸素的N-gram或基于歷史匹配的機(jī)制(如SAM)能夠精準(zhǔn)利用這些重復(fù)模式帶來的紅利。

基于這一洞察,我們進(jìn)一步驗證了將N-gram機(jī)制與基于訓(xùn)練的投機(jī)解碼方法相結(jié)合的混合策略。實驗數(shù)據(jù)顯示,SAM[EAGLE-3]這種混合策略集兩者之長,在各類設(shè)定下均實現(xiàn)了性能突破。特別是在圖3的DSL-8B (T=0) 貪婪解碼場景中,SAM[EAGLE-3]在GPQA任務(wù)上的MAT達(dá)到了驚人的7.00,并在整體評測中實現(xiàn)了最高3.97×的加速比。同樣,在QW3-8B 的多輪思考場景(圖4)中,該混合策略依然保持領(lǐng)先,穩(wěn)定提供約2.7×至3.5×的加速收益。


圖3 不同投機(jī)解碼方法在Best-of-N場景中的性能。


圖4 不同投機(jī)解碼方法在多輪思考場景中的性能。

5. 「以簡馭繁」:重塑大模型推理的效率邊界


圖5 Scaling Up, Speeding Up!N-gram投機(jī)解碼方法(SAM,PIA,SAM[EAGLE-3])在TTS中越推越快。(a) Best-of-N(T=0)。(b) Best-of-N(T=0.6)。(c) 多輪思考(T=0.6)。

本基準(zhǔn)不僅為TTS場景中的大模型推理提供了標(biāo)準(zhǔn)化的度量衡,更揭示了“重復(fù)即紅利”這一關(guān)鍵洞察。在追求模型“深思熟慮”的道路上,簡單的 N-gram 機(jī)制與混合策略展現(xiàn)出了“四兩撥千斤”的潛力,有效緩解了長思維鏈帶來的推理時延。我們期待這一基準(zhǔn)能推動社區(qū)進(jìn)一步挖掘推理結(jié)構(gòu)中的加速潛力,讓“越推越快”成為TTS的新常態(tài)。

未經(jīng)「AI科技評論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!

公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權(quán),轉(zhuǎn)載時需標(biāo)注來源并插入本公眾號名片。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
太夸張!臺積電5nm一季度利潤,比中芯國際年利潤還多400億!

太夸張!臺積電5nm一季度利潤,比中芯國際年利潤還多400億!

互聯(lián)網(wǎng).亂侃秀
2026-04-18 11:34:41
你見過哪些結(jié)婚作死行為?網(wǎng)友:這種親戚以后就別來往了

你見過哪些結(jié)婚作死行為?網(wǎng)友:這種親戚以后就別來往了

帶你感受人間冷暖
2026-04-01 00:15:03
王立群教授:用權(quán)力泡女人,女人在你面前服服帖帖,用金錢泡女人,女人是滿臉不服氣,甚至討價還價...

王立群教授:用權(quán)力泡女人,女人在你面前服服帖帖,用金錢泡女人,女人是滿臉不服氣,甚至討價還價...

深度知局
2026-04-08 07:41:14
59歲王志文已準(zhǔn)備好了后事,一切從簡,骨灰回歸自然,遺憾公開

59歲王志文已準(zhǔn)備好了后事,一切從簡,骨灰回歸自然,遺憾公開

孤芳自賞的小李
2026-04-17 19:16:25
瓦爾·基爾默"復(fù)活"出演:AI演員時代真的來了嗎

瓦爾·基爾默"復(fù)活"出演:AI演員時代真的來了嗎

報錯免疫體
2026-04-17 21:31:57
吳彥祖女兒高調(diào)亮相,太漂亮了吧,恐怕是娛樂圈顏值最高的星二代了!

吳彥祖女兒高調(diào)亮相,太漂亮了吧,恐怕是娛樂圈顏值最高的星二代了!

手工制作阿殲
2026-04-17 09:52:59
徐帆回應(yīng)離婚5個月,馮小剛狀態(tài)曝光,他的“小心思”再藏不住了

徐帆回應(yīng)離婚5個月,馮小剛狀態(tài)曝光,他的“小心思”再藏不住了

青橘罐頭
2026-04-17 17:08:26
真拼!鄺兆鐳踢中超高光時刻:5秒讓對手摔2次,最后拉傷3次倒地

真拼!鄺兆鐳踢中超高光時刻:5秒讓對手摔2次,最后拉傷3次倒地

足球大腕
2026-04-18 11:12:31
美軍司令部:發(fā)動打擊

美軍司令部:發(fā)動打擊

陸棄
2026-04-17 08:45:03
65歲東北老兩口定居廈門半年后,哭著說:這哪是養(yǎng)老,分明是遭罪

65歲東北老兩口定居廈門半年后,哭著說:這哪是養(yǎng)老,分明是遭罪

今日搞笑分享
2026-04-18 00:02:50
藍(lán)綠新北市長參選人上淡江大橋,侯友宜:李四川的奉獻(xiàn)大家有目共睹

藍(lán)綠新北市長參選人上淡江大橋,侯友宜:李四川的奉獻(xiàn)大家有目共睹

海峽導(dǎo)報社
2026-04-17 22:28:05
再次反轉(zhuǎn)!美伊都否認(rèn)了

再次反轉(zhuǎn)!美伊都否認(rèn)了

陸棄
2026-04-16 09:41:04
中國駐俄領(lǐng)館:俄羅斯一起交通事故致中國公民1死10傷

中國駐俄領(lǐng)館:俄羅斯一起交通事故致中國公民1死10傷

界面新聞
2026-04-18 18:15:00
章澤天穿最新款出席晚宴,網(wǎng)友這才是她的賽道,不要和別人搶飯碗

章澤天穿最新款出席晚宴,網(wǎng)友這才是她的賽道,不要和別人搶飯碗

動物奇奇怪怪
2026-04-18 15:45:11
阿里開源"小鋼炮":30億參數(shù)干翻270億

阿里開源"小鋼炮":30億參數(shù)干翻270億

我是一個粉刷匠2
2026-04-16 22:48:49
劉亦菲.竟也有這么洶涌的照片,太奔放了微信朋友圈

劉亦菲.竟也有這么洶涌的照片,太奔放了微信朋友圈

草莓解說體育
2026-04-18 12:17:27
1953年陳賡向周總理撥通了緊急電話:總理,高崗現(xiàn)在有點不對勁

1953年陳賡向周總理撥通了緊急電話:總理,高崗現(xiàn)在有點不對勁

輝輝歷史記
2026-04-18 04:17:21
退休以后,提醒大家:盡量別讓任何人知道你的狀態(tài),尤其這5件事

退休以后,提醒大家:盡量別讓任何人知道你的狀態(tài),尤其這5件事

小談食刻美食
2026-03-28 09:42:18
突發(fā)!全球巨震!霍爾木茲海峽完全開放

突發(fā)!全球巨震!霍爾木茲海峽完全開放

新浪財經(jīng)
2026-04-17 21:18:35
瘋狂小楊哥最新照片曝光,滿臉憔悴,神采不再

瘋狂小楊哥最新照片曝光,滿臉憔悴,神采不再

微微熱評
2026-04-17 12:35:11
2026-04-19 00:08:49
AI科技評論 incentive-icons
AI科技評論
點評學(xué)術(shù),服務(wù)AI
7198文章數(shù) 20744關(guān)注度
往期回顧 全部

科技要聞

傳Meta下月擬裁8000 大舉清退人力為AI騰位

頭條要聞

伊朗革命衛(wèi)隊向油輪開火 伊朗最高領(lǐng)袖發(fā)聲

頭條要聞

伊朗革命衛(wèi)隊向油輪開火 伊朗最高領(lǐng)袖發(fā)聲

體育要聞

時隔25年重返英超!沒有人再嘲笑他了

娛樂要聞

劉德華回應(yīng)潘宏彬去世,拒談喪禮細(xì)節(jié)

財經(jīng)要聞

"影子萬科"2.0:管理層如何吸血萬物云?

汽車要聞

奇瑞威麟R08 PRO正式上市 售價14.48萬元起

態(tài)度原創(chuàng)

家居
時尚
游戲
本地
房產(chǎn)

家居要聞

法式線條 時光靜淌

選對發(fā)型,真的能少走很多變美彎路

讓老粥批直呼“計劃有變”的歲獸代理人,到底是什么東西?

本地新聞

12噸巧克力有難,全網(wǎng)化身超級偵探添亂

房產(chǎn)要聞

官宣簽約最強(qiáng)城更!海口樓市,突然殺入神秘房企!

無障礙瀏覽 進(jìn)入關(guān)懷版