![]()
近年來,Chain-of-Thought(CoT)推理已經成為提升大語言模型和多模態大語言模型復雜問題求解能力的重要技術路徑。
然而,這種 “顯式思考” 也帶來了一個越來越突出的效率問題:模型往往需要生成大量的中間推理文本,導致推理 token 數顯著增加,從而帶來更高的推理延遲、顯存占用和計算成本。尤其在多模態大模型(MLLMs)中,輸入通常包含圖像、問題和復雜上下文,模型為了完成推理,往往需要先描述圖像內容、總結關鍵信息、分析視覺線索,再逐步推導最終答案。
這個過程雖然接近人類的 “逐步思考”,但對于大模型推理系統而言,每一個額外生成的 token 都意味著一次額外的自回歸解碼開銷。因此,一個最關鍵的問題就是:大模型的 “思考” 是否一定要以人類可讀的長文本形式顯式得生成出來
近期,來自浙江大學、Adobe Research、杜克大學等機構的研究團隊提出了一種面向多模態大模型的高效推理框架 ——Heima。該方法將冗長的文本 CoT 壓縮為少量抽象的 “thinking tokens”,讓模型在隱空間中完成高效推理,在大幅減少生成 token 數量的同時,盡可能保留 CoT 推理帶來的能力提升。更進一步,作者還構建了基于純語言模型(LLMs)的解釋器實驗,對這些抽象的 “thinking tokens” 進行解碼與重構,驗證了隱藏空間中確實存在可被還原和分析的推理過程。該論文題為 Efficient Reasoning with Hidden Thinking,已被 ICML 2026 接收。
![]()
- 論文標題:Efficient Reasoning with Hidden Thinking
- 方法名稱:Heima
- 會議:ICML 2026
- 代碼:https://github.com/shawnricecake/Heima
本文第一作者沈軒現為浙江大學 “百人計劃” 研究員,研究方向為高效人工智能,主要聚焦于大模型在 GPU、移動端、FPGA 和 ASIC 等多種硬件平臺上的高效部署與推理加速,以及面向 AI 計算的計算機體系結構與系統優化設計。
背景挑戰
CoT 推理的核心思想是讓模型在回答問題前先生成中間的推理過程。例如,對于一道多模態問題,模型可能會依次生成:1. 對輸入問題的總結;2. 對圖像內容的描述;3. 對視覺線索和問題之間關系的分析;4. 最終答案。這種方式能夠增強模型的可解釋性,也能提升模型處理復雜任務的能力。然而,其代價也十分明顯:模型需要生成大量額外的文本 token,導致推理成本變高。這些中間的 CoT 文本雖然對人類可讀,但其中也存在大量冗余信息。
現有一些方法嘗試在文本模型中進行 latent reasoning 或 CoT 壓縮,但它們通常局限于小規模語言模型、文本任務或特定數據集。相比之下,多模態大模型需要同時處理視覺輸入和語言輸入,推理過程也更復雜,因此如何在 MLLM 中壓縮 CoT,同時不破壞推理能力,仍然是一個開放問題。論文也指出,已有 latent reasoning 方法在小模型或文本任務上已有探索,但將 CoT 壓縮擴展到大規模多模態大模型仍存在明顯空白。
核心問題
本文探索的核心問題是:
能否讓多模態大模型不再生成冗長的顯式 CoT 文本,而是用少量隱式 thinking tokens 來完成推理?
這背后其實有一個很有意思的判斷:人類寫出來的推理文本,未必是模型內部 “思考” 的唯一形式。對于模型而言,中間推理過程也許可以被壓縮為更抽象、更緊湊的隱空間表示。只要這些表示能夠保留對最終答案有用的信息,模型就不一定需要完整輸出所有的推理文本。因此,Heima 的目標不是簡單地 “刪除” CoT,而是嘗試把原本冗長的 CoT 推理過程壓縮進少量特殊 token 中,讓模型仍然具備逐步推理能力,但避免在推理時生成大量自然語言中間步驟。這就類似于把 “寫滿一整頁的草稿紙” 壓縮成幾個模型內部能理解的思考符號:雖然人類可能看不懂這些符號,但模型可以用它們進行推理并給出答案。
方法概覽
為了解決上述問題,本文提出了 Heima,一個面向多模態大模型的 CoT 壓縮與隱式推理框架。論文摘要中將 Heima 描述為一種有效的 CoT compression framework,能夠把長 CoT 壓縮成少量抽象的 thinking tokens,同時保留關鍵推理信息并去除冗余。整體來看,Heima 包含三個關鍵設計:
1. 用 thinking token 替代冗長 CoT
傳統 CoT 方法會讓模型顯式生成完整的中間推理文本。例如,針對一張汽車圖片以及問題 “這輛車屬于哪個品牌?有哪些視覺特征可以支持這一判斷?”,模型可能會先逐步描述圖像內容,再基于視覺線索進行推斷:
![]()
這張圖中有一輛黑色汽車。車頭有一個特殊的標志。這個標志對應 BMW。因此答案是 BMW。
而 Heima 不再要求模型完整輸出這些文字推理,而是將不同階段的推理過程壓縮為特殊的 thinking tokens,例如:
, 結論:這張圖片展示了一輛黑色 BMW M3 在路上馳騁。
這些 token 本身很短,但其 hidden states 中編碼了對應階段的推理信息。也就是說,模型生成的不是完整推理文本,而是更緊湊的隱式思考表示。
![]()
論文圖 1 展示了一個汽車品牌識別的示例:Heima 首先基于輸入圖像和問題生成抽象的 thinking tokens,隨后再通過 interpreter 將這些 thinking tokens 重新解碼為人類可讀的推理過程,例如對汽車外觀、車標特征以及品牌歸屬進行分析。值得注意的是,這里的 interpreter 僅基于傳統大語言模型構建,并不直接接收原始圖像輸入,卻仍然能夠從純文本問題與 thinking token 表示中重建出與視覺內容相關的推理信息。這說明 thinking tokens 中確實編碼了關鍵的視覺推理線索,也從實驗層面驗證了模型隱空間中存在可被解析的推理過程。
2. 漸進式蒸餾:逐步把 CoT 壓縮進 token
直接把完整 CoT 一次性壓縮成少量 token 是很困難的,因為模型可能會丟失大量推理信息。為此,Heima 采用了progressive distillation的訓練策略。具體來說,模型并不是一次性把所有推理階段都替換成 thinking tokens,而是逐階段進行壓縮。這種漸進式訓練可以讓模型更平滑地從 “顯式文本推理” 過渡到 “隱式抽象 token 推理”,避免一次性壓縮帶來的性能下降。論文明確提出,Heima 會逐步將每個 CoT stage 蒸餾為 thinking token,而不是一次性完成所有階段的蒸餾。
3. Interpreter:把隱式思考重新解釋成人類可讀文本
隱式推理雖然高效,但也帶來一個問題:如果 thinking tokens 不是自然語言,人類如何知道模型到底有沒有在思考?或者說到底想了什么?
為此,本文設計了adaptive interpreter。它的作用是把 thinking tokens 映射回可變長度的文本序列,從而重建模型的推理過程,并進一步分析壓縮引入的信息差距。這一步非常關鍵,因為它讓 Heima 不只是一個 “把推理藏起來” 的加速方法,而是提供了一種分析和驗證隱式推理質量的機制。如果 interpreter 能夠在沒有視覺輸入的情況下,從 thinking tokens 中重建出與原始 CoT 接近的推理過程,就說明這些 tokens 確實保留了足夠多的推理信息。換句話說,Heima 一方面讓模型推理更快,另一方面又通過 interpreter 盡可能保留可解釋性。
理論分析
除了方法設計,本文還從信息論角度分析和直覺解釋了 CoT 壓縮帶來的信息差距。核心思想是:將文本 CoT 壓縮為 thinking tokens 必然會引入一定的信息損失,但只要這些 tokens 與原始 CoT 之間保留了非平凡互信息,模型的推理能力就仍然可以被保留。
![]()
![]()
實驗結果
![]()
本文在多個多模態推理 benchmark 上驗證了 Heima 的效果。Heima 不僅顯著減少了推理過程中生成的 token 數量,且在多個 benchmark 上,Heima 能夠在大幅減少 token 的同時保留大部分 CoT 推理能力。這意味著 Heima 能夠將原本冗長的 CoT 推理壓縮到非常短的 thinking token 序列中,從而顯著降低自回歸解碼成本,并且壓縮后的 thinking tokens 仍能保留處理視覺幻覺和語言幻覺問題所需的關鍵信息。
![]()
另外,為了進一步驗證 thinking tokens 中是否真的保留了推理信息,本文訓練了對應的 interpreter,并評估重建文本與原始 CoT 的接近程度。論文結果顯示,interpreter 能夠從壓縮后的 thinking tokens 中重建出連貫的 reasoning progress。尤其在 summary、caption 和 reasoning 三個階段中,interpreter 都能恢復出一定程度的人類可讀推理內容。這說明 Heima 并不是簡單地把推理過程 “黑箱化”,而是通過 interpreter 提供了一種觀察隱式思考內容的窗口。
總結與展望
Heima 提供了一種新的多模態大模型高效推理思路:與其讓模型顯式生成冗長的自然語言 CoT,不如將中間推理過程壓縮進少量 thinking tokens 中,讓模型在隱空間中完成更高效的 “隱藏思考”。相比傳統 CoT 方法,Heima 的優勢主要體現在三個方面:
- 第一,推理更高效。通過大幅減少生成 token 數,Heima 直接降低了自回歸解碼開銷。
- 第二,能力保持較好。在多個多模態推理 benchmark 上,Heima 能夠在顯著壓縮 token 的同時保持接近甚至超過原始 CoT 的性能。
- 第三,仍具備可解釋性分析機制。通過 adaptive interpreter,Heima 可以將 hidden thinking tokens 重新映射為文本推理過程,從而分析壓縮后的隱式表示是否保留了足夠的推理信息。
從更長遠的角度看,Heima 探索了一個非常重要的問題:大模型的推理過程是否必須以人類語言顯式展開?如果模型可以用更緊湊的隱空間表示完成復雜推理,那么未來的大模型推理或許可以在 “可解釋性” 和 “效率” 之間找到新的平衡點。這一工作不僅為多模態大模型的 CoT 壓縮提供了新方法,也為 latent reasoning、efficient reasoning 和 scalable multimodal reasoning systems 提供了新的研究方向。隨著多模態模型被部署到更多真實場景中,如何減少推理 token、降低延遲和提升系統吞吐,將成為大模型走向實際應用的重要問題。Heima 的提出,為這一方向提供了一個簡潔而有效的解決方案。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.