![]()
來自清華大學(xué)、無問芯穹、上海交通大學(xué)等機(jī)構(gòu)的研究團(tuán)隊(duì)提出Think-at-Hard(TaH):一種面向小模型的選擇性潛空間迭代方法,讓 Looped Transformer 只在真正困難的 token 上多想一步,在跳過 93% 的額外迭代的同時(shí),于 9 個(gè)數(shù)學(xué)、問答、代碼基準(zhǔn)上取得 3.0%–6.8% 的穩(wěn)定提升。
本文的共同第一作者為清華大學(xué)電子系 NICS-EFC 實(shí)驗(yàn)室四年級直博生傅天予和大四本科生尤憶晨,并與無問芯穹合作完成。
隨著 o1/R1 等推理模型的發(fā)展[1][2],「讓模型多想一會(huì)兒」幾乎成了提升復(fù)雜推理能力的標(biāo)準(zhǔn)方案。更長的 Chain-of-Thought、更大的測試時(shí)計(jì)算、更深的內(nèi)部推理,都在用更多計(jì)算換取更可靠的答案。
但一個(gè)問題很少被認(rèn)真討論:模型真的有必要在每個(gè) token 上都多想嗎?
對于參數(shù)受限的小模型來說[4][5],這個(gè)問題尤其關(guān)鍵。小模型成本低、速度快、適合邊緣部署,但在數(shù)學(xué)、代碼和問答任務(wù)中,往往會(huì)因?yàn)樯贁?shù)關(guān)鍵 token 預(yù)測錯(cuò)誤,讓整條推理路徑偏離正確方向。已有的 Looped Transformer[6][7][8]試圖緩解這一問題:他們在生成每個(gè) token 前,把最后一層的隱藏狀態(tài)送回模型做額外的潛空間迭代,相當(dāng)于在不增加參數(shù)的情況下為每個(gè) token 增加計(jì)算深度。
來自清華大學(xué)、無問芯穹、上海交通大學(xué)等機(jī)構(gòu)的研究團(tuán)隊(duì)在論文中發(fā)現(xiàn),事情沒這么簡單:相當(dāng)一部分 token 在第一次前向時(shí)已經(jīng)預(yù)測正確,后續(xù)的潛空間迭代反而可能把正確的預(yù)測改錯(cuò)。論文將這一現(xiàn)象命名為latent overthinking,也就是「潛空間過度思考」。
基于這一觀察,作者提出Think-at-Hard(TaH):一種選擇性潛空間迭代的 Looped Transformer。通過后訓(xùn)練,讓標(biāo)準(zhǔn)模型變?yōu)?Looped Transformer,且只在真正困難的 token 上增加算力。本工作入選 ICLR LIT Workshop Best Paper Shortlist,并被 ICML 2026 接收。
![]()
潛空間迭代可以把錯(cuò)誤預(yù)測改對,也會(huì)把正確預(yù)測改錯(cuò)
論文的核心貢獻(xiàn)在于:
- 揭示并量化了 Looped Transformer 中的潛空間過度思考 (latent overthinking) 現(xiàn)象,指出統(tǒng)一深度的潛空間迭代會(huì)同時(shí)帶來「改對」和「改錯(cuò)」。
- 提出 TaH,通過輕量級 iteration decider、duo-causal attention 與 depth-aware LoRA,實(shí)現(xiàn) token 級動(dòng)態(tài)思考。
- 在 9 個(gè)數(shù)學(xué)、問答、代碼基準(zhǔn)測試上穩(wěn)定取得提升;TaH 平均只讓約 7% 的 token 進(jìn)入第二輪迭代,相比所有 token 均二次迭代,其基準(zhǔn)測試精度反而提升 3.8-4.4%。
本工作現(xiàn)已開源,歡迎交流討論。
![]()
- 論文標(biāo)題:Think-at-Hard: Selective Latent Iterations to Improve Reasoning Language Models
- 代碼鏈接:https://github.com/thu-nics/TaH
- 主頁鏈接:https://fuvty.github.io/TaH_project_page
- 論文鏈接:https://arxiv.org/pdf/2511.08577
核心洞見
迭代計(jì)算簡單 token 反而損害模型性能
R2R 等前序工作指出,在語言模型的推理過程中,并不是所有 token 都同等重要[10][11]。真正決定推理路徑的,往往是少數(shù)關(guān)鍵位置:轉(zhuǎn)折、因果連接、中間結(jié)論等。
為了量化這種選擇性迭代的潛力,作者構(gòu)造了一個(gè)oracle 策略:僅當(dāng)模型第一次預(yù)測某個(gè) token 出錯(cuò)時(shí),才讓它繼續(xù)在潛空間迭代;如果第一次已經(jīng)預(yù)測正確,就直接輸出。實(shí)驗(yàn)顯示,僅靠這個(gè) oracle,模型在下游任務(wù)上最多就能換來 7.3% 的性能提升,而且只需要讓大約11–19%的 token 二次迭代;如果再換上為選擇性迭代優(yōu)化的 TaH 架構(gòu),oracle 帶來的提升甚至超過25%。
這意味著推理時(shí)的計(jì)算動(dòng)態(tài)分配應(yīng)該細(xì)化到 token 級別:難題里也有簡單 token,簡單題里同樣可能出現(xiàn)關(guān)鍵 token。更關(guān)鍵的是,對簡單 token 強(qiáng)行多算不僅浪費(fèi)算力,還會(huì)讓一部分本來預(yù)測對的 token 在第二次迭代里被改錯(cuò),即latent overthinking。
TaH
在困難處停下來多想
為了解決這一問題,TaH 的思路非常直接:簡單 token 快速輸出,困難 token 繼續(xù)迭代思考。
具體來說,TaH 在模型中加入一個(gè)輕量級 iteration decider(小型 MLP)。每完成一輪潛空間迭代后,decider 會(huì)基于backbone(模型骨干)的狀態(tài) *,預(yù)測一個(gè)繼續(xù)概率。如果低于閾值,模型直接輸出下一個(gè) token;如果高于閾值,則進(jìn)入下一輪潛空間迭代。
在實(shí)際推理中,TaH 平均每個(gè) token 只執(zhí)行 1.07 次迭代,相當(dāng)于跳過了約 93% token 的二次迭代計(jì)算。相比「所有 token 都想兩遍」的策略,TaH 把算力集中到了更可能出錯(cuò)、更可能影響推理方向的位置。
![]()
TaH 的 duo-causal 注意力機(jī)制以及模型架構(gòu);*decider 判定繼續(xù)迭代的輸入是 backbone 的淺層、中層和最終層的隱藏狀態(tài)向量
為了讓這種動(dòng)態(tài)深度策略真正提升精度和效率,TaH 在模型架構(gòu)和訓(xùn)練策略上都做了專門設(shè)計(jì)。
Duo-causal attention 架構(gòu)。選擇性迭代會(huì)把模型處理的序列結(jié)構(gòu)從一維 token 序列,變成「token 位置 × 迭代深度」的二維網(wǎng)格。TaH 將大模型序列維度的因果注意力(causal attention)擴(kuò)展到 token 維度和迭代深度的二維平面。如圖所示,對于 token i 的第 d 次迭代,它的 query 可以注意到前序位置中深度不超過 d 的 key 和 value。
![]()
這樣既允許跨迭代深度的信息流動(dòng),也保留了訓(xùn)練時(shí)序列維度計(jì)算的全并行性。
Depth-aware LoRA 架構(gòu)。我們觀察到,模型的第一次迭代主要負(fù)責(zé)常規(guī)下一個(gè) token 預(yù)測(next-token prediction,NTP),更深層迭代則是在修正當(dāng)前的困難 token。TaH 因此只在 d>1 的更深迭代中啟用 LoRA adapter[12],讓 LoRA 專注于學(xué)習(xí)困難 token 的修正方向。配合跨迭代的殘差連接,深層迭代被自然地學(xué)習(xí)為「在前一輪基礎(chǔ)上做修正」,而不是從零再預(yù)測一次。
兩階段訓(xùn)練。注意到,Decider 的判斷目標(biāo)依賴 backbone 的預(yù)測質(zhì)量,而 backbone 的訓(xùn)練目標(biāo)又依賴 decider 決定的迭代深度。因?yàn)檫@兩者緊耦合,所以端到端訓(xùn)練并不穩(wěn)定。TaH 采用解耦的兩階段方案:先用靜態(tài) oracle 策略訓(xùn)練 backbone 模型,再凍結(jié) backbone,單獨(dú)訓(xùn)練 decider 去模仿 oracle 的繼續(xù) / 停止決策。這種訓(xùn)練方法大大提升了訓(xùn)練的穩(wěn)定性和收斂速度。
![]()
在 Qwen3-0.6B-Base 基礎(chǔ)上訓(xùn)練,TaH 的收斂速度更快
結(jié)果
更少迭代,更強(qiáng)推理
論文在 Qwen3-0.6B、1.7B 和 4B 三個(gè)規(guī)模[3]的 backbone 上驗(yàn)證 TaH,訓(xùn)練數(shù)據(jù)來自 Open-R1[13]中數(shù)學(xué)、問答和代碼的均衡混合,并在 GSM8K、MATH500、AMC23、AIME25、OlympiadBench、GPQA-Diamond、MMLU-STEM、HumanEval++ 和 MBPP++ 共 9 個(gè)基準(zhǔn)上評測。所有方法 * 均使用完全相同的訓(xùn)練數(shù)據(jù),在相同的預(yù)訓(xùn)練 backbone 模型上后訓(xùn)練。
準(zhǔn)確性提升:在不增加參數(shù)預(yù)算的前提下顯著超越基線。在 0.6B 和 1.7B 的嚴(yán)格參數(shù)限制下,TaH 相比標(biāo)準(zhǔn) Qwen3 模型提升 3.0%-3.8%;TaH+ 在增加不超過 3% 額外參數(shù)(來自 decider 等)的情況下,將提升進(jìn)一步擴(kuò)大到 5.3%-6.2%。相比同類 Looped Transformer 方法 Ouro,TaH 取得 3.8–4.4% 的優(yōu)勢,TaH+ 的優(yōu)勢達(dá)到 6.1–6.8%。
![]()
TaH 在幾乎所有評測基準(zhǔn)和模型尺寸上都實(shí)現(xiàn)了性能提升;*SoftThink 是推理時(shí)優(yōu)化方法,無需訓(xùn)練
計(jì)算效率更高。TaH 平均每個(gè) token 只執(zhí)行 1.07 次迭代,完成問答的平均 FLOPs 和顯存訪問相比標(biāo)準(zhǔn)模型只多 4–5%。在真實(shí)解碼測試中,TaH 相比始終迭代的 AlwaysThink 顯存低 1.48 倍、解碼快 2.48 倍,同時(shí)準(zhǔn)確率反而更高。
迭代選擇的語義解釋。一個(gè)有意思的現(xiàn)象是,TaH 自動(dòng)學(xué)到帶有明顯語義偏好的迭代行為。在驗(yàn)證集上,But 和 So 是最常被觸發(fā)額外迭代的 token,概率分別達(dá)到 34% 和 18%。這些詞大多對應(yīng)轉(zhuǎn)折、因果和推理方向的切換,正是復(fù)雜推理中最容易決定后續(xù)路徑的位置。
![]()
模型預(yù)測在兩次迭代之間的變化
消融實(shí)驗(yàn)
為了驗(yàn)證 TaH 中每一項(xiàng)設(shè)計(jì)的必要性,我們做了系統(tǒng)的消融實(shí)驗(yàn)。
模型架構(gòu)。把動(dòng)態(tài)迭代深度的 decider 換成靜態(tài)深度的 Always-1 或 Always-2,基準(zhǔn)測試性能平均分別下降 6.1% 和 16.4%,說明選擇性迭代本身就比統(tǒng)一深度更優(yōu);把 duo-causal 注意力機(jī)制替換為不同種的傳統(tǒng)因果注意力,測試性能下降 5.4%-8.5%,說明跨迭代深度信息流動(dòng)的重要性;移除 depth-aware LoRA 與跨迭代殘差,效果下降了 4.9%,確認(rèn)了在輔助不同迭代進(jìn)行優(yōu)化目標(biāo)轉(zhuǎn)變時(shí),架構(gòu)的重要性。
訓(xùn)練策略。相比 TaH 的兩階段訓(xùn)練,簡單監(jiān)督所有深度的預(yù)測會(huì)使基準(zhǔn)測試性能下降 4.3%,說明不同迭代應(yīng)承擔(dān)不同優(yōu)化目標(biāo);把訓(xùn)練時(shí)的迭代策略從靜態(tài) oracle 換成 decider-based 或動(dòng)態(tài) oracle 會(huì)因 backbone 與 decider 的耦合而不穩(wěn)定甚至崩潰,證明了 TaH 兩階段訓(xùn)練的必要性
![]()
TaH 在模型架構(gòu)和訓(xùn)練策略上的消融實(shí)驗(yàn)
總結(jié)與展望
TaH 的意義不止是提出了一個(gè)新的 Looped Transformer 變體和后訓(xùn)練方法,更重要的是,它探索了如何將 test-time scaling 推向更細(xì)的 token 粒度。TaH 表明,更智能的動(dòng)態(tài)算力分配甚至可以比單純使用更高算力的模型帶來更好的效果,為后續(xù)研究帶來啟發(fā)。
參考文獻(xiàn)
[1] Jaech, A., Kalai, A., Lerer, A., et al. OpenAI o1 system card. arXiv preprint arXiv:2412.16720, 2024.
[2] Guo, D., Yang, D., Zhang, H., et al. DeepSeek-R1: Incentivizing reasoning capability in LLMs via reinforcement learning. arXiv preprint arXiv:2501.12948, 2025.
[3] Yang, A., Li, A., Yang, B., et al. Qwen3 technical report. arXiv preprint arXiv:2505.09388, 2025.
[4] Abdin, M., Aneja, J., Awadalla, H., et al. Phi-3 technical report: A highly capable language model locally on your phone. arXiv preprint arXiv:2404.14219, 2024.
[5] Team, M., Xiao, C., Li, Y., et al. MiniCPM4: Ultra-efficient LLMs on end devices. arXiv preprint arXiv:2506.07900, 2025.
[6] Hutchins, D., Schlag, I., Wu, Y., Dyer, E., and Neyshabur, B. Block-recurrent transformers. Advances in Neural Information Processing Systems, 35:33248–33261, 2022.
[7] Saunshi, N., Dikkala, N., Li, Z., Kumar, S., and Reddi, S. J. Reasoning with latent thoughts: On the power of looped transformers. arXiv preprint arXiv:2502.17416, 2025.
[8] Zhu, R.-J., Wang, Z., Hua, K., et al. Scaling latent reasoning via looped language models. arXiv preprint arXiv:2510.25741, 2025.
[9] Wu, Y., Wang, Y., Ye, Z., Du, T., Jegelka, S., and Wang, Y. When more is less: Understanding chain-of-thought length in LLMs. arXiv preprint arXiv:2502.07266, 2025.
[10] Wang, S., Yu, L., Gao, C., et al. Beyond the 80/20 rule: High-entropy minority tokens drive effective reinforcement learning for LLM reasoning. arXiv preprint arXiv:2506.01939, 2025.
[11] Fu, T., Ge, Y., You, Y., et al. R2R: Efficiently navigating divergent reasoning paths with small-large model token routing. arXiv preprint arXiv:2505.21600, 2025.
[12] Hu, E. J., Shen, Y., Wallis, P., et al. LoRA: Low-rank adaptation of large language models. ICLR, 2022.
[13] Hugging Face. Open R1: A fully open reproduction of DeepSeek-R1, January 2025. URL https://github.com/huggingface/open-r1.
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.