清華等提出TaH：跳過93%無效迭代，準(zhǔn)確率反而提升

2026-05-21 18:33:20　來源: 機(jī)器之心Pro

天津舉報(bào)

分享至

來自清華大學(xué)、無問芯穹、上海交通大學(xué)等機(jī)構(gòu)的研究團(tuán)隊(duì)提出Think-at-Hard（TaH）：一種面向小模型的選擇性潛空間迭代方法，讓 Looped Transformer 只在真正困難的 token 上多想一步，在跳過 93% 的額外迭代的同時(shí)，于 9 個(gè)數(shù)學(xué)、問答、代碼基準(zhǔn)上取得 3.0%–6.8% 的穩(wěn)定提升。
本文的共同第一作者為清華大學(xué)電子系 NICS-EFC 實(shí)驗(yàn)室四年級直博生傅天予和大四本科生尤憶晨，并與無問芯穹合作完成。

隨著 o1/R1 等推理模型的發(fā)展[1][2]，「讓模型多想一會(huì)兒」幾乎成了提升復(fù)雜推理能力的標(biāo)準(zhǔn)方案。更長的 Chain-of-Thought、更大的測試時(shí)計(jì)算、更深的內(nèi)部推理，都在用更多計(jì)算換取更可靠的答案。

但一個(gè)問題很少被認(rèn)真討論：模型真的有必要在每個(gè) token 上都多想嗎？

對于參數(shù)受限的小模型來說[4][5]，這個(gè)問題尤其關(guān)鍵。小模型成本低、速度快、適合邊緣部署，但在數(shù)學(xué)、代碼和問答任務(wù)中，往往會(huì)因?yàn)樯贁?shù)關(guān)鍵 token 預(yù)測錯(cuò)誤，讓整條推理路徑偏離正確方向。已有的 Looped Transformer[6][7][8]試圖緩解這一問題：他們在生成每個(gè) token 前，把最后一層的隱藏狀態(tài)送回模型做額外的潛空間迭代，相當(dāng)于在不增加參數(shù)的情況下為每個(gè) token 增加計(jì)算深度。

來自清華大學(xué)、無問芯穹、上海交通大學(xué)等機(jī)構(gòu)的研究團(tuán)隊(duì)在論文中發(fā)現(xiàn)，事情沒這么簡單：相當(dāng)一部分 token 在第一次前向時(shí)已經(jīng)預(yù)測正確，后續(xù)的潛空間迭代反而可能把正確的預(yù)測改錯(cuò)。論文將這一現(xiàn)象命名為latent overthinking，也就是「潛空間過度思考」。

基于這一觀察，作者提出Think-at-Hard（TaH）：一種選擇性潛空間迭代的 Looped Transformer。通過后訓(xùn)練，讓標(biāo)準(zhǔn)模型變?yōu)?Looped Transformer，且只在真正困難的 token 上增加算力。本工作入選 ICLR LIT Workshop Best Paper Shortlist，并被 ICML 2026 接收。

潛空間迭代可以把錯(cuò)誤預(yù)測改對，也會(huì)把正確預(yù)測改錯(cuò)

論文的核心貢獻(xiàn)在于：

揭示并量化了 Looped Transformer 中的潛空間過度思考 (latent overthinking) 現(xiàn)象，指出統(tǒng)一深度的潛空間迭代會(huì)同時(shí)帶來「改對」和「改錯(cuò)」。
提出 TaH，通過輕量級 iteration decider、duo-causal attention 與 depth-aware LoRA，實(shí)現(xiàn) token 級動(dòng)態(tài)思考。
在 9 個(gè)數(shù)學(xué)、問答、代碼基準(zhǔn)測試上穩(wěn)定取得提升；TaH 平均只讓約 7% 的 token 進(jìn)入第二輪迭代，相比所有 token 均二次迭代，其基準(zhǔn)測試精度反而提升 3.8-4.4%。

本工作現(xiàn)已開源，歡迎交流討論。

論文標(biāo)題：Think-at-Hard: Selective Latent Iterations to Improve Reasoning Language Models
代碼鏈接：https://github.com/thu-nics/TaH
主頁鏈接：https://fuvty.github.io/TaH_project_page
論文鏈接：https://arxiv.org/pdf/2511.08577

核心洞見

迭代計(jì)算簡單 token 反而損害模型性能

R2R 等前序工作指出，在語言模型的推理過程中，并不是所有 token 都同等重要[10][11]。真正決定推理路徑的，往往是少數(shù)關(guān)鍵位置：轉(zhuǎn)折、因果連接、中間結(jié)論等。

為了量化這種選擇性迭代的潛力，作者構(gòu)造了一個(gè)oracle 策略：僅當(dāng)模型第一次預(yù)測某個(gè) token 出錯(cuò)時(shí)，才讓它繼續(xù)在潛空間迭代；如果第一次已經(jīng)預(yù)測正確，就直接輸出。實(shí)驗(yàn)顯示，僅靠這個(gè) oracle，模型在下游任務(wù)上最多就能換來 7.3% 的性能提升，而且只需要讓大約11–19%的 token 二次迭代；如果再換上為選擇性迭代優(yōu)化的 TaH 架構(gòu)，oracle 帶來的提升甚至超過25%。

這意味著推理時(shí)的計(jì)算動(dòng)態(tài)分配應(yīng)該細(xì)化到 token 級別：難題里也有簡單 token，簡單題里同樣可能出現(xiàn)關(guān)鍵 token。更關(guān)鍵的是，對簡單 token 強(qiáng)行多算不僅浪費(fèi)算力，還會(huì)讓一部分本來預(yù)測對的 token 在第二次迭代里被改錯(cuò)，即latent overthinking。

TaH

在困難處停下來多想

為了解決這一問題，TaH 的思路非常直接：簡單 token 快速輸出，困難 token 繼續(xù)迭代思考。

具體來說，TaH 在模型中加入一個(gè)輕量級 iteration decider（小型 MLP）。每完成一輪潛空間迭代后，decider 會(huì)基于backbone（模型骨干）的狀態(tài) *，預(yù)測一個(gè)繼續(xù)概率。如果低于閾值，模型直接輸出下一個(gè) token；如果高于閾值，則進(jìn)入下一輪潛空間迭代。

在實(shí)際推理中，TaH 平均每個(gè) token 只執(zhí)行 1.07 次迭代，相當(dāng)于跳過了約 93% token 的二次迭代計(jì)算。相比「所有 token 都想兩遍」的策略，TaH 把算力集中到了更可能出錯(cuò)、更可能影響推理方向的位置。

TaH 的 duo-causal 注意力機(jī)制以及模型架構(gòu)；*decider 判定繼續(xù)迭代的輸入是 backbone 的淺層、中層和最終層的隱藏狀態(tài)向量

為了讓這種動(dòng)態(tài)深度策略真正提升精度和效率，TaH 在模型架構(gòu)和訓(xùn)練策略上都做了專門設(shè)計(jì)。

Duo-causal attention 架構(gòu)。選擇性迭代會(huì)把模型處理的序列結(jié)構(gòu)從一維 token 序列，變成「token 位置 × 迭代深度」的二維網(wǎng)格。TaH 將大模型序列維度的因果注意力（causal attention）擴(kuò)展到 token 維度和迭代深度的二維平面。如圖所示，對于 token i 的第 d 次迭代，它的 query 可以注意到前序位置中深度不超過 d 的 key 和 value。

這樣既允許跨迭代深度的信息流動(dòng)，也保留了訓(xùn)練時(shí)序列維度計(jì)算的全并行性。

Depth-aware LoRA 架構(gòu)。我們觀察到，模型的第一次迭代主要負(fù)責(zé)常規(guī)下一個(gè) token 預(yù)測（next-token prediction，NTP），更深層迭代則是在修正當(dāng)前的困難 token。TaH 因此只在 d>1 的更深迭代中啟用 LoRA adapter[12]，讓 LoRA 專注于學(xué)習(xí)困難 token 的修正方向。配合跨迭代的殘差連接，深層迭代被自然地學(xué)習(xí)為「在前一輪基礎(chǔ)上做修正」，而不是從零再預(yù)測一次。

兩階段訓(xùn)練。注意到，Decider 的判斷目標(biāo)依賴 backbone 的預(yù)測質(zhì)量，而 backbone 的訓(xùn)練目標(biāo)又依賴 decider 決定的迭代深度。因?yàn)檫@兩者緊耦合，所以端到端訓(xùn)練并不穩(wěn)定。TaH 采用解耦的兩階段方案：先用靜態(tài) oracle 策略訓(xùn)練 backbone 模型，再凍結(jié) backbone，單獨(dú)訓(xùn)練 decider 去模仿 oracle 的繼續(xù) / 停止決策。這種訓(xùn)練方法大大提升了訓(xùn)練的穩(wěn)定性和收斂速度。

在 Qwen3-0.6B-Base 基礎(chǔ)上訓(xùn)練，TaH 的收斂速度更快

結(jié)果

更少迭代，更強(qiáng)推理

論文在 Qwen3-0.6B、1.7B 和 4B 三個(gè)規(guī)模[3]的 backbone 上驗(yàn)證 TaH，訓(xùn)練數(shù)據(jù)來自 Open-R1[13]中數(shù)學(xué)、問答和代碼的均衡混合，并在 GSM8K、MATH500、AMC23、AIME25、OlympiadBench、GPQA-Diamond、MMLU-STEM、HumanEval++ 和 MBPP++ 共 9 個(gè)基準(zhǔn)上評測。所有方法 * 均使用完全相同的訓(xùn)練數(shù)據(jù)，在相同的預(yù)訓(xùn)練 backbone 模型上后訓(xùn)練。

準(zhǔn)確性提升：在不增加參數(shù)預(yù)算的前提下顯著超越基線。在 0.6B 和 1.7B 的嚴(yán)格參數(shù)限制下，TaH 相比標(biāo)準(zhǔn) Qwen3 模型提升 3.0%-3.8%；TaH+ 在增加不超過 3% 額外參數(shù)（來自 decider 等）的情況下，將提升進(jìn)一步擴(kuò)大到 5.3%-6.2%。相比同類 Looped Transformer 方法 Ouro，TaH 取得 3.8–4.4% 的優(yōu)勢，TaH+ 的優(yōu)勢達(dá)到 6.1–6.8%。

TaH 在幾乎所有評測基準(zhǔn)和模型尺寸上都實(shí)現(xiàn)了性能提升；*SoftThink 是推理時(shí)優(yōu)化方法，無需訓(xùn)練

計(jì)算效率更高。TaH 平均每個(gè) token 只執(zhí)行 1.07 次迭代，完成問答的平均 FLOPs 和顯存訪問相比標(biāo)準(zhǔn)模型只多 4–5%。在真實(shí)解碼測試中，TaH 相比始終迭代的 AlwaysThink 顯存低 1.48 倍、解碼快 2.48 倍，同時(shí)準(zhǔn)確率反而更高。

迭代選擇的語義解釋。一個(gè)有意思的現(xiàn)象是，TaH 自動(dòng)學(xué)到帶有明顯語義偏好的迭代行為。在驗(yàn)證集上，But 和 So 是最常被觸發(fā)額外迭代的 token，概率分別達(dá)到 34% 和 18%。這些詞大多對應(yīng)轉(zhuǎn)折、因果和推理方向的切換，正是復(fù)雜推理中最容易決定后續(xù)路徑的位置。

模型預(yù)測在兩次迭代之間的變化

消融實(shí)驗(yàn)

為了驗(yàn)證 TaH 中每一項(xiàng)設(shè)計(jì)的必要性，我們做了系統(tǒng)的消融實(shí)驗(yàn)。

模型架構(gòu)。把動(dòng)態(tài)迭代深度的 decider 換成靜態(tài)深度的 Always-1 或 Always-2，基準(zhǔn)測試性能平均分別下降 6.1% 和 16.4%，說明選擇性迭代本身就比統(tǒng)一深度更優(yōu)；把 duo-causal 注意力機(jī)制替換為不同種的傳統(tǒng)因果注意力，測試性能下降 5.4%-8.5%，說明跨迭代深度信息流動(dòng)的重要性；移除 depth-aware LoRA 與跨迭代殘差，效果下降了 4.9%，確認(rèn)了在輔助不同迭代進(jìn)行優(yōu)化目標(biāo)轉(zhuǎn)變時(shí)，架構(gòu)的重要性。

訓(xùn)練策略。相比 TaH 的兩階段訓(xùn)練，簡單監(jiān)督所有深度的預(yù)測會(huì)使基準(zhǔn)測試性能下降 4.3%，說明不同迭代應(yīng)承擔(dān)不同優(yōu)化目標(biāo)；把訓(xùn)練時(shí)的迭代策略從靜態(tài) oracle 換成 decider-based 或動(dòng)態(tài) oracle 會(huì)因 backbone 與 decider 的耦合而不穩(wěn)定甚至崩潰，證明了 TaH 兩階段訓(xùn)練的必要性

TaH 在模型架構(gòu)和訓(xùn)練策略上的消融實(shí)驗(yàn)

總結(jié)與展望

TaH 的意義不止是提出了一個(gè)新的 Looped Transformer 變體和后訓(xùn)練方法，更重要的是，它探索了如何將 test-time scaling 推向更細(xì)的 token 粒度。TaH 表明，更智能的動(dòng)態(tài)算力分配甚至可以比單純使用更高算力的模型帶來更好的效果，為后續(xù)研究帶來啟發(fā)。

參考文獻(xiàn)

[1] Jaech, A., Kalai, A., Lerer, A., et al. OpenAI o1 system card. arXiv preprint arXiv:2412.16720, 2024.

[2] Guo, D., Yang, D., Zhang, H., et al. DeepSeek-R1: Incentivizing reasoning capability in LLMs via reinforcement learning. arXiv preprint arXiv:2501.12948, 2025.

[3] Yang, A., Li, A., Yang, B., et al. Qwen3 technical report. arXiv preprint arXiv:2505.09388, 2025.

[4] Abdin, M., Aneja, J., Awadalla, H., et al. Phi-3 technical report: A highly capable language model locally on your phone. arXiv preprint arXiv:2404.14219, 2024.

[5] Team, M., Xiao, C., Li, Y., et al. MiniCPM4: Ultra-efficient LLMs on end devices. arXiv preprint arXiv:2506.07900, 2025.

[6] Hutchins, D., Schlag, I., Wu, Y., Dyer, E., and Neyshabur, B. Block-recurrent transformers. Advances in Neural Information Processing Systems, 35:33248–33261, 2022.

[7] Saunshi, N., Dikkala, N., Li, Z., Kumar, S., and Reddi, S. J. Reasoning with latent thoughts: On the power of looped transformers. arXiv preprint arXiv:2502.17416, 2025.

[8] Zhu, R.-J., Wang, Z., Hua, K., et al. Scaling latent reasoning via looped language models. arXiv preprint arXiv:2510.25741, 2025.

[9] Wu, Y., Wang, Y., Ye, Z., Du, T., Jegelka, S., and Wang, Y. When more is less: Understanding chain-of-thought length in LLMs. arXiv preprint arXiv:2502.07266, 2025.

[10] Wang, S., Yu, L., Gao, C., et al. Beyond the 80/20 rule: High-entropy minority tokens drive effective reinforcement learning for LLM reasoning. arXiv preprint arXiv:2506.01939, 2025.

[11] Fu, T., Ge, Y., You, Y., et al. R2R: Efficiently navigating divergent reasoning paths with small-large model token routing. arXiv preprint arXiv:2505.21600, 2025.

[12] Hu, E. J., Shen, Y., Wallis, P., et al. LoRA: Low-rank adaptation of large language models. ICLR, 2022.

[13] Hugging Face. Open R1: A fully open reproduction of DeepSeek-R1, January 2025. URL https://github.com/huggingface/open-r1.

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.