編輯|Panda
如今,思維鏈(CoT)已然成為前沿模型的標配。其機制并不復雜:用戶提一個問題,模型會先輸出一大段內部推導過程(有時候長達幾千個詞),然后才給出正式答案。
然而,隨著模型能力的提升,思維鏈也越來越長,成本也就水漲船高,越來越貴。社交網絡上,我們經常能看到 AI 重度用戶望賬單而興嘆,悲錢包之空癟。
Claude Fable 5 發布后,前沿模型的使用成本更是驚人,以至于讓一些用戶發出了感嘆:「只有開賭場和搞詐騙的才用得起」。
但是,或許,這條不斷提升思維能力的路可能本就走錯了方向。
近日,一篇來自谷歌 DeepMind 的論文《Transformer 的拓撲麻煩》以一個看似簡單的問題,撼動了整個行業的底層邏輯:Transformer 架構本身,就不擅長追蹤狀態;而「思維鏈」不過是在給這個結構性缺陷打補丁。
![]()
- 論文標題:The Topological Trouble With Transformers
- 論文地址:https://arxiv.org/abs/2604.17121
值得注意的是,這篇論文的第一作者Michael C. Mozer是 DeepMind 的研究科學家,也是循環神經網絡領域的資深研究者。他在 1991 年就提出了處理多尺度時序結構的循環網絡模型,并在整個 1990 年代深入研究過 RNN 的梯度消失問題。正是這些工作,在當年埋下了 LSTM(長短期記憶網絡)誕生的伏筆。
![]()
幾十年后,他重新審視這個問題。這一次,他的對手換成了主宰整個 AI 時代的 Transformer。
Transformer 為何如此強大,又有何隱患?
要理解這篇論文,先得明白 Transformer 是如何工作的。
![]()
原初 Transformer 架構
我們可以想象一座圖書館。每次有人提問,圖書館員不會「記住」之前說過什么,而是把所有對話記錄擺在桌上,重新翻閱一遍,然后作答。
這就是 Transformer 的核心策略:把整個對話歷史都裝進「上下文窗口」,通過「注意力機制」檢索過去的信息。這個策略非常有效:它繞開了早期循環神經網絡(RNN)難以記住遠距離信息的老問題,并由此催生了 GPT、Claude、Gemini、DeepSeek 等一系列大模型。
但這個策略有一個根本性的缺陷,論文稱之為「狀態追蹤(State Tracking)」問題。
所謂狀態追蹤,是指在對話或推理過程中,模型需要維護一個不斷更新的「內部狀態」,比如對話進行到哪一步、當前場景里哪個人在哪里、一道邏輯題現在推理到哪個環節。
人類在思考時,這種追蹤是自動完成的,往往無需刻意思考。但對于 Transformer 來說,每整合一條新信息,這個「內部狀態」就必須被推送到網絡更深的層次,而網絡的深度是有限的,一旦耗盡,模型便無法繼續可靠地追蹤狀態。
![]()
論文用一個直觀的比喻解釋了這一點:把 Transformer 想象成一棟樓,信息從底層流向頂層。每處理一個新輸入,模型的「狀態表示」就得搬到更高一層。樓層不是無限的,搬到頂了,就搬不動了。
「思維鏈」是個變通,但非解決方案
論文中,谷歌 DeepMind 的作者們用了幾個令人印象深刻的例子,展示了 Transformer 的狀態追蹤失效有多么日常。
第一個例子,是讓模型扮演「猜數字」游戲:由模型心里默想一個 1 到 100 之間的數字,用戶來猜,模型只回答「更大」或「更小」。這個游戲的關鍵在于,模型必須始終記住自己想的那個數,并對每次猜測給出一致的反饋。然而,論文展示了 Gemini 3(Fast)的失敗:
用戶猜 60,模型說「更小」;用戶猜 41,模型說「更小」;用戶猜 70,模型卻說「更大」——前后矛盾,破綻立現。
![]()
更耐人尋味的是,即便是加入了「思考」模塊的 Gemini 3 Thinking,也出了岔子。模型在思考階段明確寫下「我選定了數字 42,60 比 42 大,所以應該回答更小」——但當用戶猜 42 時,模型依然回答「更小」,等于忘了自己剛剛說的話。
![]()
第二個例子,則是經典的「河岸還是銀行?」歧義測試。同一個英文單詞「bank」,可以是河岸,也可以是銀行。模型在第一輪正確判斷弗雷德去的是河邊,但第二輪被問到「他那里有沒有 ATM 機」時,卻改口說「有,大多數銀行旁邊都有 ATM」。前后矛盾,毫無察覺。
![]()
這不是偶發的「幻覺」,而是架構性缺陷的必然結果。論文通過神經網絡可解釋性工具 Patchscopes 觀察到:模型對「bank」的語義消歧,發生在網絡第六層(較深位置);但當模型處理后續輸入時,淺層(第 1 至 5 層)根本「看不到」這個消歧結果,只能基于粗淺的詞頻關聯(「銀行」→「ATM」)給出反應。
狀態確實被更新了,但更新的結果埋得太深,后續處理無法訪問。
目前主流的解決方案「思維鏈」的原理,是讓模型把那個埋得很深的狀態「打印出來」,變成可見的文字輸出,再重新讀入。這樣,深層信息就被「搬運」到了新一輪處理的表層。
這確實有效,但代價也大:大量計算被用于輸出這些「中間思考」,上下文窗口被大量占用,推理成本隨之飆升。
對此,論文中表示:「對于人們自動完成、毫無意識的推斷,比如判斷一個詞的含義,根本不需要訴諸繁復的外顯思考。」
如何解決:重新擁抱「循環」
論文的核心主張是將研究重心從「外顯思維鏈」轉向「隱式激活動態」。換言之,用循環(Recurrent)架構來替代或補充當前的純前饋(Feedforward)結構。
論文為此建立了一套分類體系,將各類「循環 Transformer」按兩個維度劃分:循環發生在哪個軸(深度方向還是序列方向)、每個循環步驟處理幾個輸入詞。
在「深度方向循環」上,研究者們已探索出「循環 Transformer」(Looped Transformer)、「通用 Transformer」(Universal Transformer)等架構,允許同一組網絡層被反復使用。但論文指出,深度循環依然沒有解決根本問題:狀態表示仍然會隨著序列增長而被推向更深層,只是慢了一點。
![]()
真正能做到「無限期狀態追蹤」的,是沿序列方向的循環,即每處理一個新輸入,都將前一步的狀態向量顯式傳遞進來。
這與傳統 RNN 的做法一脈相承,但結合了現代注意力機制的優勢。論文列舉了 MAMBA、RWKV-7、DeltaNet 等狀態空間模型(SSM)和線性注意力架構,認為它們代表了這條路線的最新進展。
特別值得關注的是 DeltaNet 的改進版本:通過將特征值范圍擴展至負數,它在保留并行訓練優勢的同時,實現了超越標準 Transformer 的狀態追蹤能力,并在大規模語言建模測試中展現出競爭力。
![]()
論文還提出了幾個前景看好的研究方向:在更粗粒度上引入循環(例如以句子為單位而非詞元);利用殘差連接帶來的表示對齊來降低循環訓練成本;以及分階段訓練策略——先用標準前饋架構預訓練,再引入循環機制進行微調。
下一代大模型,需要會流動的記憶
「思考」這個能力,如今已成為頂級 AI 產品的標配賣點。但論文給出了一個清醒的提醒:現在的「思考」,更像是用語言在黑板上演算,而不是真正的內心動態。
一個人讀一本小說,不需要每翻一頁就把前面發生的事「朗讀出來」,才能記住故事線索。這種背景性的、流動的狀態維護,對人類來說幾乎是零成本的。
而大模型現在做不到這件事。
論文的結論認為,下一代基礎模型必須超越「反復檢索歷史文本」的策略,轉而構建「流動的、持續演化的現實表示」,橫跨多個時間尺度。這不只是效率問題,而是通向真正穩定、連貫的長時認知的必由之路。
從 Transformer 的「記憶檢索」到真正的「狀態維護」,這條路還很長。但現在,有人已經看清了地圖上那道彎。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.