无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

清華等提出TaH:跳過93%無效迭代,準(zhǔn)確率反而提升

0
分享至



來自清華大學(xué)、無問芯穹、上海交通大學(xué)等機(jī)構(gòu)的研究團(tuán)隊(duì)提出Think-at-Hard(TaH):一種面向小模型的選擇性潛空間迭代方法,讓 Looped Transformer 只在真正困難的 token 上多想一步,在跳過 93% 的額外迭代的同時(shí),于 9 個(gè)數(shù)學(xué)、問答、代碼基準(zhǔn)上取得 3.0%–6.8% 的穩(wěn)定提升。
本文的共同第一作者為清華大學(xué)電子系 NICS-EFC 實(shí)驗(yàn)室四年級直博生傅天予和大四本科生尤憶晨,并與無問芯穹合作完成。

隨著 o1/R1 等推理模型的發(fā)展[1][2],「讓模型多想一會(huì)兒」幾乎成了提升復(fù)雜推理能力的標(biāo)準(zhǔn)方案。更長的 Chain-of-Thought、更大的測試時(shí)計(jì)算、更深的內(nèi)部推理,都在用更多計(jì)算換取更可靠的答案。

但一個(gè)問題很少被認(rèn)真討論:模型真的有必要在每個(gè) token 上都多想嗎?

對于參數(shù)受限的小模型來說[4][5],這個(gè)問題尤其關(guān)鍵。小模型成本低、速度快、適合邊緣部署,但在數(shù)學(xué)、代碼和問答任務(wù)中,往往會(huì)因?yàn)樯贁?shù)關(guān)鍵 token 預(yù)測錯(cuò)誤,讓整條推理路徑偏離正確方向。已有的 Looped Transformer[6][7][8]試圖緩解這一問題:他們在生成每個(gè) token 前,把最后一層的隱藏狀態(tài)送回模型做額外的潛空間迭代,相當(dāng)于在不增加參數(shù)的情況下為每個(gè) token 增加計(jì)算深度。

來自清華大學(xué)、無問芯穹、上海交通大學(xué)等機(jī)構(gòu)的研究團(tuán)隊(duì)在論文中發(fā)現(xiàn),事情沒這么簡單:相當(dāng)一部分 token 在第一次前向時(shí)已經(jīng)預(yù)測正確,后續(xù)的潛空間迭代反而可能把正確的預(yù)測改錯(cuò)。論文將這一現(xiàn)象命名為latent overthinking,也就是「潛空間過度思考」。

基于這一觀察,作者提出Think-at-Hard(TaH):一種選擇性潛空間迭代的 Looped Transformer。通過后訓(xùn)練,讓標(biāo)準(zhǔn)模型變?yōu)?Looped Transformer,且只在真正困難的 token 上增加算力。本工作入選 ICLR LIT Workshop Best Paper Shortlist,并被 ICML 2026 接收。



潛空間迭代可以把錯(cuò)誤預(yù)測改對,也會(huì)把正確預(yù)測改錯(cuò)

論文的核心貢獻(xiàn)在于:

  • 揭示并量化了 Looped Transformer 中的潛空間過度思考 (latent overthinking) 現(xiàn)象,指出統(tǒng)一深度的潛空間迭代會(huì)同時(shí)帶來「改對」和「改錯(cuò)」。
  • 提出 TaH,通過輕量級 iteration decider、duo-causal attention 與 depth-aware LoRA,實(shí)現(xiàn) token 級動(dòng)態(tài)思考。
  • 在 9 個(gè)數(shù)學(xué)、問答、代碼基準(zhǔn)測試上穩(wěn)定取得提升;TaH 平均只讓約 7% 的 token 進(jìn)入第二輪迭代,相比所有 token 均二次迭代,其基準(zhǔn)測試精度反而提升 3.8-4.4%。

本工作現(xiàn)已開源,歡迎交流討論。



  • 論文標(biāo)題:Think-at-Hard: Selective Latent Iterations to Improve Reasoning Language Models
  • 代碼鏈接:https://github.com/thu-nics/TaH
  • 主頁鏈接:https://fuvty.github.io/TaH_project_page
  • 論文鏈接:https://arxiv.org/pdf/2511.08577

核心洞見

迭代計(jì)算簡單 token 反而損害模型性能

R2R 等前序工作指出,在語言模型的推理過程中,并不是所有 token 都同等重要[10][11]。真正決定推理路徑的,往往是少數(shù)關(guān)鍵位置:轉(zhuǎn)折、因果連接、中間結(jié)論等。

為了量化這種選擇性迭代的潛力,作者構(gòu)造了一個(gè)oracle 策略:僅當(dāng)模型第一次預(yù)測某個(gè) token 出錯(cuò)時(shí),才讓它繼續(xù)在潛空間迭代;如果第一次已經(jīng)預(yù)測正確,就直接輸出。實(shí)驗(yàn)顯示,僅靠這個(gè) oracle,模型在下游任務(wù)上最多就能換來 7.3% 的性能提升,而且只需要讓大約11–19%的 token 二次迭代;如果再換上為選擇性迭代優(yōu)化的 TaH 架構(gòu),oracle 帶來的提升甚至超過25%。

這意味著推理時(shí)的計(jì)算動(dòng)態(tài)分配應(yīng)該細(xì)化到 token 級別:難題里也有簡單 token,簡單題里同樣可能出現(xiàn)關(guān)鍵 token。更關(guān)鍵的是,對簡單 token 強(qiáng)行多算不僅浪費(fèi)算力,還會(huì)讓一部分本來預(yù)測對的 token 在第二次迭代里被改錯(cuò),即latent overthinking。

TaH

在困難處停下來多想

為了解決這一問題,TaH 的思路非常直接:簡單 token 快速輸出,困難 token 繼續(xù)迭代思考。

具體來說,TaH 在模型中加入一個(gè)輕量級 iteration decider(小型 MLP)。每完成一輪潛空間迭代后,decider 會(huì)基于backbone(模型骨干)的狀態(tài) *,預(yù)測一個(gè)繼續(xù)概率。如果低于閾值,模型直接輸出下一個(gè) token;如果高于閾值,則進(jìn)入下一輪潛空間迭代。

在實(shí)際推理中,TaH 平均每個(gè) token 只執(zhí)行 1.07 次迭代,相當(dāng)于跳過了約 93% token 的二次迭代計(jì)算。相比「所有 token 都想兩遍」的策略,TaH 把算力集中到了更可能出錯(cuò)、更可能影響推理方向的位置。



TaH 的 duo-causal 注意力機(jī)制以及模型架構(gòu);*decider 判定繼續(xù)迭代的輸入是 backbone 的淺層、中層和最終層的隱藏狀態(tài)向量

為了讓這種動(dòng)態(tài)深度策略真正提升精度和效率,TaH 在模型架構(gòu)和訓(xùn)練策略上都做了專門設(shè)計(jì)。

Duo-causal attention 架構(gòu)。選擇性迭代會(huì)把模型處理的序列結(jié)構(gòu)從一維 token 序列,變成「token 位置 × 迭代深度」的二維網(wǎng)格。TaH 將大模型序列維度的因果注意力(causal attention)擴(kuò)展到 token 維度和迭代深度的二維平面。如圖所示,對于 token i 的第 d 次迭代,它的 query 可以注意到前序位置中深度不超過 d 的 key 和 value。



這樣既允許跨迭代深度的信息流動(dòng),也保留了訓(xùn)練時(shí)序列維度計(jì)算的全并行性。

Depth-aware LoRA 架構(gòu)。我們觀察到,模型的第一次迭代主要負(fù)責(zé)常規(guī)下一個(gè) token 預(yù)測(next-token prediction,NTP),更深層迭代則是在修正當(dāng)前的困難 token。TaH 因此只在 d>1 的更深迭代中啟用 LoRA adapter[12],讓 LoRA 專注于學(xué)習(xí)困難 token 的修正方向。配合跨迭代的殘差連接,深層迭代被自然地學(xué)習(xí)為「在前一輪基礎(chǔ)上做修正」,而不是從零再預(yù)測一次。

兩階段訓(xùn)練。注意到,Decider 的判斷目標(biāo)依賴 backbone 的預(yù)測質(zhì)量,而 backbone 的訓(xùn)練目標(biāo)又依賴 decider 決定的迭代深度。因?yàn)檫@兩者緊耦合,所以端到端訓(xùn)練并不穩(wěn)定。TaH 采用解耦的兩階段方案:先用靜態(tài) oracle 策略訓(xùn)練 backbone 模型,再凍結(jié) backbone,單獨(dú)訓(xùn)練 decider 去模仿 oracle 的繼續(xù) / 停止決策。這種訓(xùn)練方法大大提升了訓(xùn)練的穩(wěn)定性和收斂速度。



在 Qwen3-0.6B-Base 基礎(chǔ)上訓(xùn)練,TaH 的收斂速度更快

結(jié)果

更少迭代,更強(qiáng)推理

論文在 Qwen3-0.6B、1.7B 和 4B 三個(gè)規(guī)模[3]的 backbone 上驗(yàn)證 TaH,訓(xùn)練數(shù)據(jù)來自 Open-R1[13]中數(shù)學(xué)、問答和代碼的均衡混合,并在 GSM8K、MATH500、AMC23、AIME25、OlympiadBench、GPQA-Diamond、MMLU-STEM、HumanEval++ 和 MBPP++ 共 9 個(gè)基準(zhǔn)上評測。所有方法 * 均使用完全相同的訓(xùn)練數(shù)據(jù),在相同的預(yù)訓(xùn)練 backbone 模型上后訓(xùn)練。

準(zhǔn)確性提升:在不增加參數(shù)預(yù)算的前提下顯著超越基線。在 0.6B 和 1.7B 的嚴(yán)格參數(shù)限制下,TaH 相比標(biāo)準(zhǔn) Qwen3 模型提升 3.0%-3.8%;TaH+ 在增加不超過 3% 額外參數(shù)(來自 decider 等)的情況下,將提升進(jìn)一步擴(kuò)大到 5.3%-6.2%。相比同類 Looped Transformer 方法 Ouro,TaH 取得 3.8–4.4% 的優(yōu)勢,TaH+ 的優(yōu)勢達(dá)到 6.1–6.8%。



TaH 在幾乎所有評測基準(zhǔn)和模型尺寸上都實(shí)現(xiàn)了性能提升;*SoftThink 是推理時(shí)優(yōu)化方法,無需訓(xùn)練

計(jì)算效率更高。TaH 平均每個(gè) token 只執(zhí)行 1.07 次迭代,完成問答的平均 FLOPs 和顯存訪問相比標(biāo)準(zhǔn)模型只多 4–5%。在真實(shí)解碼測試中,TaH 相比始終迭代的 AlwaysThink 顯存低 1.48 倍、解碼快 2.48 倍,同時(shí)準(zhǔn)確率反而更高。

迭代選擇的語義解釋。一個(gè)有意思的現(xiàn)象是,TaH 自動(dòng)學(xué)到帶有明顯語義偏好的迭代行為。在驗(yàn)證集上,But 和 So 是最常被觸發(fā)額外迭代的 token,概率分別達(dá)到 34% 和 18%。這些詞大多對應(yīng)轉(zhuǎn)折、因果和推理方向的切換,正是復(fù)雜推理中最容易決定后續(xù)路徑的位置。



模型預(yù)測在兩次迭代之間的變化

消融實(shí)驗(yàn)

為了驗(yàn)證 TaH 中每一項(xiàng)設(shè)計(jì)的必要性,我們做了系統(tǒng)的消融實(shí)驗(yàn)。

模型架構(gòu)。把動(dòng)態(tài)迭代深度的 decider 換成靜態(tài)深度的 Always-1 或 Always-2,基準(zhǔn)測試性能平均分別下降 6.1% 和 16.4%,說明選擇性迭代本身就比統(tǒng)一深度更優(yōu);把 duo-causal 注意力機(jī)制替換為不同種的傳統(tǒng)因果注意力,測試性能下降 5.4%-8.5%,說明跨迭代深度信息流動(dòng)的重要性;移除 depth-aware LoRA 與跨迭代殘差,效果下降了 4.9%,確認(rèn)了在輔助不同迭代進(jìn)行優(yōu)化目標(biāo)轉(zhuǎn)變時(shí),架構(gòu)的重要性。

訓(xùn)練策略。相比 TaH 的兩階段訓(xùn)練,簡單監(jiān)督所有深度的預(yù)測會(huì)使基準(zhǔn)測試性能下降 4.3%,說明不同迭代應(yīng)承擔(dān)不同優(yōu)化目標(biāo);把訓(xùn)練時(shí)的迭代策略從靜態(tài) oracle 換成 decider-based 或動(dòng)態(tài) oracle 會(huì)因 backbone 與 decider 的耦合而不穩(wěn)定甚至崩潰,證明了 TaH 兩階段訓(xùn)練的必要性



TaH 在模型架構(gòu)和訓(xùn)練策略上的消融實(shí)驗(yàn)

總結(jié)與展望

TaH 的意義不止是提出了一個(gè)新的 Looped Transformer 變體和后訓(xùn)練方法,更重要的是,它探索了如何將 test-time scaling 推向更細(xì)的 token 粒度。TaH 表明,更智能的動(dòng)態(tài)算力分配甚至可以比單純使用更高算力的模型帶來更好的效果,為后續(xù)研究帶來啟發(fā)。

參考文獻(xiàn)

[1] Jaech, A., Kalai, A., Lerer, A., et al. OpenAI o1 system card. arXiv preprint arXiv:2412.16720, 2024.

[2] Guo, D., Yang, D., Zhang, H., et al. DeepSeek-R1: Incentivizing reasoning capability in LLMs via reinforcement learning. arXiv preprint arXiv:2501.12948, 2025.

[3] Yang, A., Li, A., Yang, B., et al. Qwen3 technical report. arXiv preprint arXiv:2505.09388, 2025.

[4] Abdin, M., Aneja, J., Awadalla, H., et al. Phi-3 technical report: A highly capable language model locally on your phone. arXiv preprint arXiv:2404.14219, 2024.

[5] Team, M., Xiao, C., Li, Y., et al. MiniCPM4: Ultra-efficient LLMs on end devices. arXiv preprint arXiv:2506.07900, 2025.

[6] Hutchins, D., Schlag, I., Wu, Y., Dyer, E., and Neyshabur, B. Block-recurrent transformers. Advances in Neural Information Processing Systems, 35:33248–33261, 2022.

[7] Saunshi, N., Dikkala, N., Li, Z., Kumar, S., and Reddi, S. J. Reasoning with latent thoughts: On the power of looped transformers. arXiv preprint arXiv:2502.17416, 2025.

[8] Zhu, R.-J., Wang, Z., Hua, K., et al. Scaling latent reasoning via looped language models. arXiv preprint arXiv:2510.25741, 2025.

[9] Wu, Y., Wang, Y., Ye, Z., Du, T., Jegelka, S., and Wang, Y. When more is less: Understanding chain-of-thought length in LLMs. arXiv preprint arXiv:2502.07266, 2025.

[10] Wang, S., Yu, L., Gao, C., et al. Beyond the 80/20 rule: High-entropy minority tokens drive effective reinforcement learning for LLM reasoning. arXiv preprint arXiv:2506.01939, 2025.

[11] Fu, T., Ge, Y., You, Y., et al. R2R: Efficiently navigating divergent reasoning paths with small-large model token routing. arXiv preprint arXiv:2505.21600, 2025.

[12] Hu, E. J., Shen, Y., Wallis, P., et al. LoRA: Low-rank adaptation of large language models. ICLR, 2022.

[13] Hugging Face. Open R1: A fully open reproduction of DeepSeek-R1, January 2025. URL https://github.com/huggingface/open-r1.

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
古巴8個(gè)鮮為人知的事實(shí):曾迫使數(shù)萬華人流亡,從富裕國家滑落至極度困難

古巴8個(gè)鮮為人知的事實(shí):曾迫使數(shù)萬華人流亡,從富裕國家滑落至極度困難

三言四拍
2026-05-30 13:05:06
扎哈羅娃:俄將對羅馬尼亞迅速采取報(bào)復(fù)措施

扎哈羅娃:俄將對羅馬尼亞迅速采取報(bào)復(fù)措施

參考消息
2026-05-30 11:58:56
三花智控高管“為孩子教育”減持套現(xiàn),兩千億巨頭陷熱門概念敘事與資本套現(xiàn)割裂

三花智控高管“為孩子教育”減持套現(xiàn),兩千億巨頭陷熱門概念敘事與資本套現(xiàn)割裂

每日經(jīng)濟(jì)新聞
2026-05-30 14:41:08
“結(jié)婚22年后發(fā)現(xiàn)兩兒子均非親生”當(dāng)事人發(fā)聲:我對他們恨之入骨!

“結(jié)婚22年后發(fā)現(xiàn)兩兒子均非親生”當(dāng)事人發(fā)聲:我對他們恨之入骨!

新民周刊
2026-05-30 17:32:14
兩名9歲女孩被困電梯近2小時(shí)!求救幾十次后,保安回應(yīng):不要再按電梯玩了

兩名9歲女孩被困電梯近2小時(shí)!求救幾十次后,保安回應(yīng):不要再按電梯玩了

上觀新聞
2026-05-30 19:34:29
俄烏戰(zhàn)爭,如果俄羅斯最終贏了,你我在有生之年很可能會(huì)親歷戰(zhàn)爭

俄烏戰(zhàn)爭,如果俄羅斯最終贏了,你我在有生之年很可能會(huì)親歷戰(zhàn)爭

混沌錄
2026-05-29 23:26:12
重磅:烏克蘭擊毀俄羅斯兩架圖142!打掉伊斯坎德爾系統(tǒng)

重磅:烏克蘭擊毀俄羅斯兩架圖142!打掉伊斯坎德爾系統(tǒng)

項(xiàng)鵬飛
2026-05-30 16:28:01
西決搶七大戰(zhàn)裁判出爐:戴維斯擔(dān)任主裁 三人執(zhí)哨兩隊(duì)勝率曝光

西決搶七大戰(zhàn)裁判出爐:戴維斯擔(dān)任主裁 三人執(zhí)哨兩隊(duì)勝率曝光

羅說NBA
2026-05-30 21:26:04
央視曝光!涉事品牌:全部下架!天熱很多人愛喝

央視曝光!涉事品牌:全部下架!天熱很多人愛喝

蓬勃新聞
2026-05-29 14:53:17
打虎!王益華被查

打虎!王益華被查

新京報(bào)
2026-05-30 20:29:17
41歲夫妻因“房事頻繁”雙雙入院,醫(yī)生提醒:每周不應(yīng)超過一個(gè)數(shù)

41歲夫妻因“房事頻繁”雙雙入院,醫(yī)生提醒:每周不應(yīng)超過一個(gè)數(shù)

醫(yī)學(xué)原創(chuàng)故事會(huì)
2026-05-29 23:34:07
伊朗濃縮鈾材料將被挖出銷毀,特朗普就伊朗戰(zhàn)事最新表態(tài)

伊朗濃縮鈾材料將被挖出銷毀,特朗普就伊朗戰(zhàn)事最新表態(tài)

上游新聞
2026-05-29 23:35:03
D1804次列車受電弓遭異物擊打,被困隧道內(nèi)超2小時(shí),乘客稱全車停電悶熱異常,身上像從水里撈出來的,備用列車已到現(xiàn)場并開始轉(zhuǎn)運(yùn)

D1804次列車受電弓遭異物擊打,被困隧道內(nèi)超2小時(shí),乘客稱全車停電悶熱異常,身上像從水里撈出來的,備用列車已到現(xiàn)場并開始轉(zhuǎn)運(yùn)

臺州交通廣播
2026-05-30 13:47:54
耿同學(xué)再下一城!南開免去陳某院長職務(wù),14張圖表確認(rèn)學(xué)術(shù)不端

耿同學(xué)再下一城!南開免去陳某院長職務(wù),14張圖表確認(rèn)學(xué)術(shù)不端

聽心堂
2026-05-30 20:24:06
中方代表:日本沒有資格談國際防務(wù)合作 須警惕軍國主義思潮借機(jī)復(fù)活

中方代表:日本沒有資格談國際防務(wù)合作 須警惕軍國主義思潮借機(jī)復(fù)活

環(huán)球網(wǎng)資訊
2026-05-30 19:36:11
禁投美股,難得全球大國中惟一正確

禁投美股,難得全球大國中惟一正確

家傳編輯部
2026-05-30 12:24:47
海南一三甲醫(yī)院空調(diào)外機(jī)安在室內(nèi)走廊,患者吐槽“看病比室外還熱”,院方回應(yīng)

海南一三甲醫(yī)院空調(diào)外機(jī)安在室內(nèi)走廊,患者吐槽“看病比室外還熱”,院方回應(yīng)

上游新聞
2026-05-30 16:05:05
中建八局資質(zhì)被正式撤銷,給全行業(yè)敲響警鐘,考公需要注意了。

中建八局資質(zhì)被正式撤銷,給全行業(yè)敲響警鐘,考公需要注意了。

解說阿洎
2026-05-29 12:34:21
最新!債務(wù)突破100萬億!

最新!債務(wù)突破100萬億!

葉初七
2026-05-30 10:28:14
網(wǎng)紅狗被偷后續(xù):男子被帶走,老婆還在哺乳期,收狗人曝更多內(nèi)情

網(wǎng)紅狗被偷后續(xù):男子被帶走,老婆還在哺乳期,收狗人曝更多內(nèi)情

閱微札記
2026-05-30 11:47:19
2026-05-31 00:19:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
13116文章數(shù) 142655關(guān)注度
往期回顧 全部

科技要聞

車圈大佬發(fā)聲:價(jià)格戰(zhàn)遠(yuǎn)去,但競爭仍殘酷

頭條要聞

兩名9歲女孩被困電梯近2小時(shí) 求救幾十次物業(yè)無動(dòng)于衷

頭條要聞

兩名9歲女孩被困電梯近2小時(shí) 求救幾十次物業(yè)無動(dòng)于衷

體育要聞

歲月不饒人!39歲德約鏖戰(zhàn)近5小時(shí)拼到嘔吐

娛樂要聞

張碧晨《歌手》 “活人微死” 自嘲

財(cái)經(jīng)要聞

雙匯管不住一頭豬

汽車要聞

900V+3.2秒破百 領(lǐng)克10+&領(lǐng)克10上市16.99萬元起

態(tài)度原創(chuàng)

旅游
時(shí)尚
親子
家居
手機(jī)

旅游要聞

六一帶娃去哪玩?鄭州又多了個(gè)好去處!

美回巔峰的她們,帶火的這些爆款真的好用嗎

親子要聞

今天我們吃公主糖果玩公主裝扮游戲

家居要聞

云棲 舒展如流云

手機(jī)要聞

REDMI K90至尊版入網(wǎng)?K90單品激活破200萬

無障礙瀏覽 進(jìn)入關(guān)懷版