網易首頁 > 網易號 > 正文申請入駐

DeepMind：Transformer存在拓撲缺陷，思維鏈治標不治本

2026-06-17 18:33:39　來源: 機器之心Pro

天津舉報

分享至

編輯｜Panda

如今，思維鏈（CoT）已然成為前沿模型的標配。其機制并不復雜：用戶提一個問題，模型會先輸出一大段內部推導過程（有時候長達幾千個詞），然后才給出正式答案。

然而，隨著模型能力的提升，思維鏈也越來越長，成本也就水漲船高，越來越貴。社交網絡上，我們經常能看到 AI 重度用戶望賬單而興嘆，悲錢包之空癟。

Claude Fable 5 發布后，前沿模型的使用成本更是驚人，以至于讓一些用戶發出了感嘆：「只有開賭場和搞詐騙的才用得起」。

但是，或許，這條不斷提升思維能力的路可能本就走錯了方向。

近日，一篇來自谷歌 DeepMind 的論文《Transformer 的拓撲麻煩》以一個看似簡單的問題，撼動了整個行業的底層邏輯：Transformer 架構本身，就不擅長追蹤狀態；而「思維鏈」不過是在給這個結構性缺陷打補丁。

論文標題：The Topological Trouble With Transformers
論文地址：https://arxiv.org/abs/2604.17121

值得注意的是，這篇論文的第一作者Michael C. Mozer是 DeepMind 的研究科學家，也是循環神經網絡領域的資深研究者。他在 1991 年就提出了處理多尺度時序結構的循環網絡模型，并在整個 1990 年代深入研究過 RNN 的梯度消失問題。正是這些工作，在當年埋下了 LSTM（長短期記憶網絡）誕生的伏筆。

幾十年后，他重新審視這個問題。這一次，他的對手換成了主宰整個 AI 時代的 Transformer。

Transformer 為何如此強大，又有何隱患？

要理解這篇論文，先得明白 Transformer 是如何工作的。

原初 Transformer 架構

我們可以想象一座圖書館。每次有人提問，圖書館員不會「記住」之前說過什么，而是把所有對話記錄擺在桌上，重新翻閱一遍，然后作答。

這就是 Transformer 的核心策略：把整個對話歷史都裝進「上下文窗口」，通過「注意力機制」檢索過去的信息。這個策略非常有效：它繞開了早期循環神經網絡（RNN）難以記住遠距離信息的老問題，并由此催生了 GPT、Claude、Gemini、DeepSeek 等一系列大模型。

但這個策略有一個根本性的缺陷，論文稱之為「狀態追蹤（State Tracking）」問題。

所謂狀態追蹤，是指在對話或推理過程中，模型需要維護一個不斷更新的「內部狀態」，比如對話進行到哪一步、當前場景里哪個人在哪里、一道邏輯題現在推理到哪個環節。

人類在思考時，這種追蹤是自動完成的，往往無需刻意思考。但對于 Transformer 來說，每整合一條新信息，這個「內部狀態」就必須被推送到網絡更深的層次，而網絡的深度是有限的，一旦耗盡，模型便無法繼續可靠地追蹤狀態。

論文用一個直觀的比喻解釋了這一點：把 Transformer 想象成一棟樓，信息從底層流向頂層。每處理一個新輸入，模型的「狀態表示」就得搬到更高一層。樓層不是無限的，搬到頂了，就搬不動了。

「思維鏈」是個變通，但非解決方案

論文中，谷歌 DeepMind 的作者們用了幾個令人印象深刻的例子，展示了 Transformer 的狀態追蹤失效有多么日常。

第一個例子，是讓模型扮演「猜數字」游戲：由模型心里默想一個 1 到 100 之間的數字，用戶來猜，模型只回答「更大」或「更小」。這個游戲的關鍵在于，模型必須始終記住自己想的那個數，并對每次猜測給出一致的反饋。然而，論文展示了 Gemini 3（Fast）的失敗：

用戶猜 60，模型說「更小」；用戶猜 41，模型說「更小」；用戶猜 70，模型卻說「更大」——前后矛盾，破綻立現。

更耐人尋味的是，即便是加入了「思考」模塊的 Gemini 3 Thinking，也出了岔子。模型在思考階段明確寫下「我選定了數字 42，60 比 42 大，所以應該回答更小」——但當用戶猜 42 時，模型依然回答「更小」，等于忘了自己剛剛說的話。

第二個例子，則是經典的「河岸還是銀行？」歧義測試。同一個英文單詞「bank」，可以是河岸，也可以是銀行。模型在第一輪正確判斷弗雷德去的是河邊，但第二輪被問到「他那里有沒有 ATM 機」時，卻改口說「有，大多數銀行旁邊都有 ATM」。前后矛盾，毫無察覺。

這不是偶發的「幻覺」，而是架構性缺陷的必然結果。論文通過神經網絡可解釋性工具 Patchscopes 觀察到：模型對「bank」的語義消歧，發生在網絡第六層（較深位置）；但當模型處理后續輸入時，淺層（第 1 至 5 層）根本「看不到」這個消歧結果，只能基于粗淺的詞頻關聯（「銀行」→「ATM」）給出反應。

狀態確實被更新了，但更新的結果埋得太深，后續處理無法訪問。

目前主流的解決方案「思維鏈」的原理，是讓模型把那個埋得很深的狀態「打印出來」，變成可見的文字輸出，再重新讀入。這樣，深層信息就被「搬運」到了新一輪處理的表層。

這確實有效，但代價也大：大量計算被用于輸出這些「中間思考」，上下文窗口被大量占用，推理成本隨之飆升。

對此，論文中表示：「對于人們自動完成、毫無意識的推斷，比如判斷一個詞的含義，根本不需要訴諸繁復的外顯思考。」

如何解決：重新擁抱「循環」

論文的核心主張是將研究重心從「外顯思維鏈」轉向「隱式激活動態」。換言之，用循環（Recurrent）架構來替代或補充當前的純前饋（Feedforward）結構。

論文為此建立了一套分類體系，將各類「循環 Transformer」按兩個維度劃分：循環發生在哪個軸（深度方向還是序列方向）、每個循環步驟處理幾個輸入詞。

在「深度方向循環」上，研究者們已探索出「循環 Transformer」（Looped Transformer）、「通用 Transformer」（Universal Transformer）等架構，允許同一組網絡層被反復使用。但論文指出，深度循環依然沒有解決根本問題：狀態表示仍然會隨著序列增長而被推向更深層，只是慢了一點。

真正能做到「無限期狀態追蹤」的，是沿序列方向的循環，即每處理一個新輸入，都將前一步的狀態向量顯式傳遞進來。

這與傳統 RNN 的做法一脈相承，但結合了現代注意力機制的優勢。論文列舉了 MAMBA、RWKV-7、DeltaNet 等狀態空間模型（SSM）和線性注意力架構，認為它們代表了這條路線的最新進展。

特別值得關注的是 DeltaNet 的改進版本：通過將特征值范圍擴展至負數，它在保留并行訓練優勢的同時，實現了超越標準 Transformer 的狀態追蹤能力，并在大規模語言建模測試中展現出競爭力。

論文還提出了幾個前景看好的研究方向：在更粗粒度上引入循環（例如以句子為單位而非詞元）；利用殘差連接帶來的表示對齊來降低循環訓練成本；以及分階段訓練策略——先用標準前饋架構預訓練，再引入循環機制進行微調。

下一代大模型，需要會流動的記憶

「思考」這個能力，如今已成為頂級 AI 產品的標配賣點。但論文給出了一個清醒的提醒：現在的「思考」，更像是用語言在黑板上演算，而不是真正的內心動態。

一個人讀一本小說，不需要每翻一頁就把前面發生的事「朗讀出來」，才能記住故事線索。這種背景性的、流動的狀態維護，對人類來說幾乎是零成本的。

而大模型現在做不到這件事。

論文的結論認為，下一代基礎模型必須超越「反復檢索歷史文本」的策略，轉而構建「流動的、持續演化的現實表示」，橫跨多個時間尺度。這不只是效率問題，而是通向真正穩定、連貫的長時認知的必由之路。

從 Transformer 的「記憶檢索」到真正的「狀態維護」，這條路還很長。但現在，有人已經看清了地圖上那道彎。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.