網易首頁 > 網易號 > 正文 申請入駐

Meta AI 推理新論文:模型記住套路,推理 token 砍半

0
分享至

大數據文摘出品

Meta 又一次在 AI 推理上“開了掛”。

一份新論文顯示,Meta 的研究團隊找到一種讓大模型“用更少思維,想得更清楚”的辦法。

這篇論文名為《Metacognitive Reuse: Turning Recurring LLM Reasoning Into Concise Behaviors》,發表于2025 年 9 月 17 日,來自Meta 團隊與普林斯頓大學、蒙特利爾大學聯合研究。

作者包括Aniket Didolkar、Nicolas Ballas、Anirudh Goyal 與 Sanjeev Arora

論文地址: https://arxiv.org/abs/2509.13237

論文提出一個新機制,讓大語言模型(LLM)能在每次推理后,總結自己重復用到的步驟,并把它們存為簡短指令,稱為“行為(Behavior)”。

下一次遇到類似問題,模型不再重復推,而是直接調用這些“行為”

效果驚人。

在數學推理任務上,Meta 團隊實測:模型在準確率不下降的前提下,推理所需的 token 數量最多減少 46%

也就是說,同樣一道題,模型少想一半,卻答得一樣準。

研究團隊稱,這讓模型“學會記得自己怎么思考”,相當于給 LLM 裝上了“思維緩存”。

思維有手冊:AI的“行為記憶術”

“行為復用”(Metacognitive Reuse)框架

Meta 把這個機制叫做“行為手冊(Behavior Handbook)”。

當模型解決問題時,它會記錄下自己的整個推理過程。

然后再回頭反思,分析哪些步驟是常見套路,比如“容斥原理”“有理化分母”“代入后先化簡”。

模型會為這些套路起名、寫說明,變成一條條“行為指令”。

這些指令被收進一本不斷擴充的手冊里。

論文把這種機制稱為“元認知路徑(Metacognitive Pathway)”,意思是模型在“思考自己的思考”。

舉個例子:當模型遇到一道擲骰子概率題,它可能調用behavior_total_outcomes(計算所有可能結果)和behavior_inclusion_exclusion(用容斥原理避免重復計數)。

調用完就不再多說廢話,答案照出。

所以,每個行為是一段壓縮的思維過程。它把原本要幾十步才能重建的推導,濃縮成一句話。

論文展示了多個實驗結果。在MATH數據集上,行為調節推理(Behavior-conditioned Inference)讓模型的推理token平均減少近一半;在AIME–24/25高難數學題上,模型在低預算(2048–8192 tokens)下仍保持穩定精度。

自我復盤,像人一樣“省思考”

長期以來,大模型被詬病“啰嗦”:每解一道題,都要展開冗長的 chain-of-thought,把所有中間步驟重新鋪一遍。

這不僅浪費 token,也拉低了模型吞吐量。Meta 讓模型自己反思,自己提煉,自己精簡。

行為提取提示設計

論文設計了三種模式:

第一種,是“行為調節推理”(Behavior-conditioned Inference)。模型從手冊里調出相關行為提示,帶著它們去解題。
結果:少寫46%的token,準確率不降反升。

第二種,是“行為引導自我改進”(Behavior-guided Self-improvement)。模型用自己總結的行為來指導下次推理。
結果:正確率比普通“自我批改”提升10%。

第三種,是“行為調節監督微調”(Behavior-conditioned SFT)。Meta 研究者用帶有行為提示的推理數據去訓練學生模型。
結果:學生模型學會推理,比傳統微調版本更聰明、更高效。

實驗中,Meta 使用了R1-Llama-70B作為“元認知策略師”,并測試了Qwen3-32B、Llama-3.1-8B 等多個學生模型

幾乎所有模型都出現了相同現象:推理token直線下滑,性能保持平穩。

研究者把這一現象形容為:“模型從慢推導變成快反應。”它不再每次都重寫思維,而是像人一樣,學會了用經驗來省思考。

注:頭圖AI生成

作者長期關注 AI 產業與學術,歡迎對這些方向感興趣的朋友添加微信Q1yezi,共同交流行業動態與技術趨勢!

GPU 訓練特惠!

H100/H200 GPU算力按秒計費,平均節省開支30%以上!

掃碼了解詳情?

點「贊」的人都變好看了哦!

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
美股深夜冰火兩重天,軟件股重挫,甲骨文跌超6%,半導體逆勢爆發,熱門中概股大跌

美股深夜冰火兩重天,軟件股重挫,甲骨文跌超6%,半導體逆勢爆發,熱門中概股大跌

21世紀經濟報道
2026-04-23 22:32:48
外資暴跌96%,最高法連夜改規矩,莫迪狂砍蘋果380億,中企敲警鐘

外資暴跌96%,最高法連夜改規矩,莫迪狂砍蘋果380億,中企敲警鐘

丁丁鯉史紀
2026-04-23 13:56:03
張婉婷疑曾介入高云翔董璇婚姻,懷了對方的孩子,也太狗血了

張婉婷疑曾介入高云翔董璇婚姻,懷了對方的孩子,也太狗血了

話娛論影
2026-04-23 09:58:53
四個省級政府領導班子調整,夏鳳儉晉升副部

四個省級政府領導班子調整,夏鳳儉晉升副部

上觀新聞
2026-04-23 16:09:06
“暴力抗法”半月后,拼多多發生重大高管調整

“暴力抗法”半月后,拼多多發生重大高管調整

一見財經
2026-04-23 08:04:06
快看!世界新第一高樓,已蓋到100層!

快看!世界新第一高樓,已蓋到100層!

GA環球建筑
2026-04-23 22:28:50
軟件開發最后的一塊兒陣地,被AI攻克了......

軟件開發最后的一塊兒陣地,被AI攻克了......

碼農翻身
2026-04-23 08:59:23
不再是120/80,“新血壓標準”已公布,別再自己嚇自己!

不再是120/80,“新血壓標準”已公布,別再自己嚇自己!

芹姐說生活
2026-04-14 23:27:03
廣東季后賽賽程出爐!4月28日附加賽首戰,杜鋒或迎徐昕正面挑戰

廣東季后賽賽程出爐!4月28日附加賽首戰,杜鋒或迎徐昕正面挑戰

多特體育說
2026-04-23 23:07:54
趕緊給菲律賓送油送糧送化肥

趕緊給菲律賓送油送糧送化肥

安安說
2026-04-23 11:44:51
女大學生受邀去泰國潑水節被轉賣電詐園,家屬交20萬贖金:園區初步同意放人但不給位置;廣州警方已立案,教育部門介入

女大學生受邀去泰國潑水節被轉賣電詐園,家屬交20萬贖金:園區初步同意放人但不給位置;廣州警方已立案,教育部門介入

大風新聞
2026-04-23 16:28:15
太慘!被美歐拋棄,走上絕路,宣布破產!

太慘!被美歐拋棄,走上絕路,宣布破產!

李榮茂
2026-04-23 18:33:54
中國空軍才是最可怕的?2場空戰讓美軍意識到,中國比想象的強大

中國空軍才是最可怕的?2場空戰讓美軍意識到,中國比想象的強大

至死不渝的愛情
2026-04-23 21:45:22
石破茂:日本不能“盲目跟著美國跑”

石破茂:日本不能“盲目跟著美國跑”

環球時報國際
2026-04-23 22:48:32
AI竟能生成《金瓶梅》"3A大作"!尺度很大細節夸張

AI竟能生成《金瓶梅》"3A大作"!尺度很大細節夸張

游民星空
2026-04-22 11:55:38
震驚!徐向前揭露西安事變背后的驚天秘密!

震驚!徐向前揭露西安事變背后的驚天秘密!

鑒史錄
2026-04-23 00:15:03
突發!世乒賽女團換人!溫瑞博還有機會嗎?

突發!世乒賽女團換人!溫瑞博還有機會嗎?

最愛乒乓球
2026-04-24 00:05:31
受害者給許家印寫了副對聯,上聯:人民幣不是許家印,下聯太絕了

受害者給許家印寫了副對聯,上聯:人民幣不是許家印,下聯太絕了

南書房
2026-04-23 12:20:07
切爾西更衣室暗戰:兩名老將如何"做掉"新帥

切爾西更衣室暗戰:兩名老將如何"做掉"新帥

賽場名場面
2026-04-23 04:11:19
防不住!戰術拆解:哈登一人,為何能讓猛龍防守顧此失彼

防不住!戰術拆解:哈登一人,為何能讓猛龍防守顧此失彼

一登侃球
2026-04-24 00:25:54
2026-04-24 02:48:49
大數據文摘 incentive-icons
大數據文摘
專注大數據,每日有分享!
6852文章數 94541關注度
往期回顧 全部

科技要聞

馬斯克喊出"史上最大產品",但量產難預測

頭條要聞

以色列:只要美國同意 將刺殺伊朗最高領袖

頭條要聞

以色列:只要美國同意 將刺殺伊朗最高領袖

體育要聞

給文班剃頭的馬刺DJ,成為NBA最佳第六人

娛樂要聞

王大陸因涉黑討債被判 女友也一同獲刑

財經要聞

普華永道賠償10億 恒大股東見到"回頭錢"

汽車要聞

預售30.29萬起 嵐圖泰山X8配896線激光雷達

態度原創

教育
手機
房產
藝術
公開課

教育要聞

推薦一款高考志愿卡,五大功能助你解決志愿疑難

手機要聞

vivo X500 Pro Max被曝光:2nm工藝+5GHz,2K直屏九月發!

房產要聞

三亞安居房,突然官宣!

藝術要聞

吉達塔蓋到第100層,“它是沙特唯一能按期完成的大項目”

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版