亚洲中文字幕乱码亚洲-蜜桃成熟视频在线观看-免费中文字幕视频在线-中国五十路熟妇洗澡视频-亚洲av伊人啪啪c-国产精品成人一区二区-国产自拍视频一区在线观看-成人一区不卡二区三区四区-亚洲情精品中文字幕99在线

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

ICLR 2026|隱式思考模型LRT:「隱式思維鏈」推理,更快更強!

0
分享至



近日,哈爾濱工業(yè)大學(xué)(深圳)聯(lián)合深圳河套學(xué)院、Independent Researcher提出了隱式思考模型 LRT(Latent Reasoning Tuning),通過一個輕量級的推理網(wǎng)絡(luò),將大模型冗長的「思維鏈」壓縮為緊湊的隱式向量表征,一次前向計算即可完成推理,無需逐 token 生成數(shù)千字的中間推理過程。

LRT 不僅實現(xiàn)了高效思考,還能作為一種全新的混合思考范式,在 Qwen3 系列模型上超越了其原生的非思考模式。



  • 論文地址: https://openreview.net/forum?id=CbK7lYbmv8
  • 代碼開源: https://github.com/MobiusDai/LRT

出發(fā)點:大模型「自言自語」的推理過程真的全都有用嗎?

以 OpenAI o1、DeepSeek-R1、Qwen QwQ 為代表的慢思考推理模型,通過生成詳盡的逐步推理鏈來解決復(fù)雜問題,展現(xiàn)了強大的推理能力。然而,這些模型存在一個顯著痛點 ——過度思考(Overthinking):

  • 即使是簡單的數(shù)學(xué)題,模型也可能生成數(shù)千個 token 的推理過程,其中包含大量回溯、自我驗證和冗余步驟;
  • 推理軌跡的長度往往遠(yuǎn)超最終答案,導(dǎo)致推理延遲高、計算開銷大,嚴(yán)重制約了實時應(yīng)用。

Question:這些冗長的推理鏈真的全部必要嗎?

關(guān)鍵發(fā)現(xiàn):推理軌跡存在大量冗余

為了回答上述問題,團隊設(shè)計了一組實驗:在 DeepSeek-R1-Distill-Qwen-7B 模型上,將推理軌跡進行不同粒度的刪減 —— 隨機跳過一定比例的 token 或推理步驟,然后觀察模型能否僅憑殘缺的推理鏈給出正確答案。



核心洞察: 即使隨機丟棄 50% 的推理軌跡,模型準(zhǔn)確率僅下降約 2 個百分點。這可以得出兩個結(jié)論:

  1. 當(dāng)前的推理軌跡中存在大量冗余信息,遠(yuǎn)超正確推理所需的信息;
  2. 推理模型具有強大的信息過濾能力,即使面對殘缺、高困惑度的推理鏈,依然能從中提取關(guān)鍵信息并總結(jié)得出正確答案。

這一發(fā)現(xiàn)直接啟發(fā)了團隊的核心思路:既然完整的逐步推理鏈并非必要,能否用一種更緊湊的隱式表征來替代它?

方法:隱式思考模型 LRT

基于上述洞察,團隊提出了 Latent Reasoning Tuning(LRT) 框架。其核心思想可以概括為:用一個輕量級推理網(wǎng)絡(luò),將顯式的推理鏈「編碼」為固定長度的隱式向量,直接注入大模型即可生成最終答案。

技術(shù)架構(gòu)



如上圖所示,傳統(tǒng)推理模型需要逐 token 自回歸生成整條推理鏈(Decode → Decode → ... → Decode),而 LRT 的流程為:



具體方法





模型的推理生成過程可分為兩個階段:

  • Prefill 階段:模型一次性處理輸入提示 X 中的全部 token,初始化注意力狀態(tài)(KV 緩存)。這一階段是并行的,計算效率較高;
  • Decode 階段:模型逐 token 自回歸地生成輸出,每一步僅基于前序 token 與緩存狀態(tài)進行推理。這一階段是串行的,也是推理延遲的主要瓶頸。

在 Decode 階段,思維鏈的生成過程可以形式化為:









既然推理軌跡是輸入的函數(shù),而已經(jīng)證明了它存在大量冗余,那么一個自然的想法是:使用一個更高效的函數(shù)來替代它?











實驗結(jié)果

1. 高效思考 —— 在不同 Token Budget 下表現(xiàn)最優(yōu)



在 DeepSeek-R1-Distill-Qwen-1.5B 上,與多種高效推理方法進行對比:

  • 在不同的 Token 預(yù)算下,LRT 在域內(nèi)和域外任務(wù)上全面領(lǐng)先。在 512-Token 下,其平均準(zhǔn)確率比 NoThinking 高 2.66%,比 RL 類方法 ShorterBetter、LC-R1 分別高 5.90% 和 4.74%。

2. 混合思考 —— 超越 Qwen3 原生混合思考模式



LRT 的模塊化設(shè)計天然適合作為混合推理的新范式:面對簡單問題使用隱式思考快速作答,面對困難問題切換回顯式慢思考深入推理。在 Qwen3 系列模型上驗證了這一能力:

  • 在 Qwen3-4B 上,LRT 的 pass@4 平均準(zhǔn)確率達(dá)到 71.60%,比 Qwen3 原生非思考模式高出 5.82 個百分點!在 GSM8K 上提升近 7%,在 LSAT 上提升超過 14%。這表明隱式推理向量能有效引導(dǎo)模型產(chǎn)生更多樣、更高質(zhì)量的解題路徑。

3. 推理效率對比



  • LRT 的推理延遲顯著低于 Qwen3 的混合思考模式,甚至比非思考模式還快 —— 因為隱式推理向量引導(dǎo)模型生成更簡潔的答案,減少了解碼步數(shù)。

4. 消融實驗分析



隱式推理 token 數(shù)量的影響:隨著隱式 token 數(shù)從 64 增加到 256,性能穩(wěn)步提升(42.53% → 48.42%)。



兩階段訓(xùn)練:加入 RL 階段后,域內(nèi)任務(wù)平均提升約 9%,域外任務(wù)平均提升約 4.3%,驗證了強化學(xué)習(xí)對隱式推理優(yōu)化的關(guān)鍵作用。



更大的基礎(chǔ)模型(如 Qwen3-8B)則能充分利用更多的隱式 token(使用 512 個隱式 token 時結(jié)果仍能提高),說明隱式推理的「容量」與基礎(chǔ)模型能力正相關(guān)。

總結(jié)

隱式思考模型 LRT 開辟了一條全新的高效推理路徑:

  • 理論洞察:系統(tǒng)性地揭示了推理軌跡的高度冗余性,證明完整的逐步推理鏈并非正確推理的前提;
  • 高效思考:通過將顯式推理鏈壓縮為隱式向量表征,用單次前向計算替代數(shù)千步自回歸解碼,大幅降低推理成本;
  • 混合思考:模塊化的即插即用設(shè)計,無需修改大模型參數(shù),可在隱式推理與顯式推理之間無縫切換,為混合推理系統(tǒng)提供了更優(yōu)的替代方案;
  • 效果優(yōu)異:在數(shù)學(xué)、邏輯、科學(xué)等多類基準(zhǔn)上全面超越現(xiàn)有高效推理方法,并在 Qwen3 系列模型上超越其原生非思考模式。

作者信息

本文第一作者姜聰,哈爾濱工業(yè)大學(xué)(深圳)博士生,研究方向為高效思考與推理模型。通訊作者張正,哈爾濱工業(yè)大學(xué)(深圳)教授、博士生導(dǎo)師,教育部青年長江學(xué)者,主要從事高效能多模態(tài)人工智能的研究,近年專注于高效與可信多模態(tài)大模型。

主要完成單位為哈爾濱工業(yè)大學(xué)(深圳)& 深圳河套學(xué)院。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
女子高空拋撒百萬港幣后續(xù):正面照曝光,原因公開,親屬曝出內(nèi)情

女子高空拋撒百萬港幣后續(xù):正面照曝光,原因公開,親屬曝出內(nèi)情

解鎖世界風(fēng)云
2026-04-15 20:34:10
特朗普稱有能力在“一小時內(nèi)”摧毀伊朗的橋梁和發(fā)電廠

特朗普稱有能力在“一小時內(nèi)”摧毀伊朗的橋梁和發(fā)電廠

新華社
2026-04-15 20:15:07
麥當(dāng)娜:與保鏢的性愛視頻,被保鏢拍賣后,她的反應(yīng)讓人稱贊

麥當(dāng)娜:與保鏢的性愛視頻,被保鏢拍賣后,她的反應(yīng)讓人稱贊

七阿姨愛八卦
2026-04-15 17:23:47
南通一客運站掛出招租橫幅!一代人的擠車記憶,真的落幕了?

南通一客運站掛出招租橫幅!一代人的擠車記憶,真的落幕了?

好通網(wǎng)
2026-04-15 08:46:44
江西男子徐平安去世,年僅24歲,愛健身一身肌肉,確診后不到一年

江西男子徐平安去世,年僅24歲,愛健身一身肌肉,確診后不到一年

社會日日鮮
2026-04-15 05:53:10
企業(yè)增值稅的設(shè)計:虧損了也要交稅

企業(yè)增值稅的設(shè)計:虧損了也要交稅

生命可以承受之輕
2026-04-15 06:48:23
兩岸命運掌握在自己手上!鄭麗文喊話賴清德:為和平大業(yè)愿意溝通

兩岸命運掌握在自己手上!鄭麗文喊話賴清德:為和平大業(yè)愿意溝通

海峽導(dǎo)報社
2026-04-15 17:04:04
采訪了100個娶了小三的男人,他們幾乎都說了同一句話,讓人恍然

采訪了100個娶了小三的男人,他們幾乎都說了同一句話,讓人恍然

千秋文化
2026-04-15 20:18:32
A股迎重磅新政:三十年來首次延長交易時長,牛市要來了

A股迎重磅新政:三十年來首次延長交易時長,牛市要來了

人生錄
2026-04-15 16:18:11
王哲林20+16上海險勝廣州豪取20連勝 徐昕10+15伯頓36+10

王哲林20+16上海險勝廣州豪取20連勝 徐昕10+15伯頓36+10

醉臥浮生
2026-04-15 21:22:42
張子強團伙中,唯一聽了李嘉誠建議買28套豪宅的青年,后來如何了

張子強團伙中,唯一聽了李嘉誠建議買28套豪宅的青年,后來如何了

深度報
2026-04-14 22:45:47
臭氣熏天,記者現(xiàn)場“yue”個不停!網(wǎng)友:很久沒看到這么有“活人感”的報道,隔著屏幕都能感受到

臭氣熏天,記者現(xiàn)場“yue”個不停!網(wǎng)友:很久沒看到這么有“活人感”的報道,隔著屏幕都能感受到

深圳晚報
2026-04-15 14:53:52
泰國征兵再出“美女”奇葩名場面!有人盛裝亮相美成天仙,有人為逃避吃成200斤?

泰國征兵再出“美女”奇葩名場面!有人盛裝亮相美成天仙,有人為逃避吃成200斤?

英國報姐
2026-04-14 21:12:12
反轉(zhuǎn)!巴西部長強行封殺比亞迪,盧拉深夜震怒:立刻卷鋪蓋走人!

反轉(zhuǎn)!巴西部長強行封殺比亞迪,盧拉深夜震怒:立刻卷鋪蓋走人!

共工之錨
2026-04-15 00:31:36
張雪峰去世不到一個月,員工宣布離職,低價挖客戶,賬號已私密

張雪峰去世不到一個月,員工宣布離職,低價挖客戶,賬號已私密

180視角
2026-04-15 17:52:51
上萬美軍封鎖下,多艘貨船成功通過霍爾木茲海峽,美軍稱已完全切斷伊朗海上進出口貿(mào)易;美國為何在此時打出“封鎖牌”?伊朗如何反擊?

上萬美軍封鎖下,多艘貨船成功通過霍爾木茲海峽,美軍稱已完全切斷伊朗海上進出口貿(mào)易;美國為何在此時打出“封鎖牌”?伊朗如何反擊?

每日經(jīng)濟新聞
2026-04-15 10:59:49
王博被驅(qū)逐!三大核心缺席廣廈惜敗山西 布朗空砍41分

王博被驅(qū)逐!三大核心缺席廣廈惜敗山西 布朗空砍41分

醉臥浮生
2026-04-15 21:51:38
不想訪華了?特朗普召回美駐華大使,貝森特?fù)P言:中國“不可靠”

不想訪華了?特朗普召回美駐華大使,貝森特?fù)P言:中國“不可靠”

影孖看世界
2026-04-15 22:29:46
何潤東瞿穎內(nèi)衣廣告爆了!網(wǎng)友:太頂了!

何潤東瞿穎內(nèi)衣廣告爆了!網(wǎng)友:太頂了!

品牌頭版
2026-04-15 20:29:41
女子利用天氣預(yù)報頻繁購買飛機延誤險,5年買中900多次,獲賠近300萬,被抓時:我符合保險理賠要求

女子利用天氣預(yù)報頻繁購買飛機延誤險,5年買中900多次,獲賠近300萬,被抓時:我符合保險理賠要求

譚老師地理大課堂
2026-04-15 20:11:42
2026-04-15 23:35:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12772文章數(shù) 142628關(guān)注度
往期回顧 全部

科技要聞

ChatGPT十億用戶又怎樣?Anthropic直接貼臉

頭條要聞

豫劇團下鄉(xiāng)演出臺下觀眾痛哭流涕:觀眾超千人一半落淚

頭條要聞

豫劇團下鄉(xiāng)演出臺下觀眾痛哭流涕:觀眾超千人一半落淚

體育要聞

三球準(zhǔn)絕殺戴大金鏈:轟30+10自我救贖

娛樂要聞

謝娜現(xiàn)身環(huán)球影城,牽手女兒溫馨有愛

財經(jīng)要聞

業(yè)績失速的Lululemon:"健康"人設(shè)崩塌?

汽車要聞

空間絲毫不用妥協(xié) 小鵬GX首發(fā)評測

態(tài)度原創(chuàng)

數(shù)碼
房產(chǎn)
親子
公開課
軍事航空

數(shù)碼要聞

補足有線,羅技推出Alto Keys琥珀K98M / K98S Plus機械鍵盤

房產(chǎn)要聞

重磅調(diào)規(guī)!341畝商改住+中小學(xué)用地!寶龍城這把穩(wěn)了?

親子要聞

母嬰命懸一線,兇險性前置胎盤穿透膀胱,這家醫(yī)院如何力挽狂瀾

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

萬斯:對當(dāng)前美伊局勢進展“感到樂觀”

無障礙瀏覽 進入關(guān)懷版