網易首頁 > 網易號 > 正文申請入駐

條條電路通羅馬：大模型可解釋性的唯一機制可能從一開始就不存在

2026-06-30 15:08:37　來源: 機器之心Pro

天津舉報

分享至

長期以來，機制可解釋性（mechanistic interpretability）領域有一個幾乎從未被明說、卻被視為理所當然的前提：模型對于同一種任務的能力或表現，背后對應著一條唯一的、或近乎唯一的內部「電路」（circuit）。該領域的研究者們之所以要做「電路發現」（circuit discovery），是為了要把這些「特定的」電路找出來。
但一篇被 ICML 2026 接收的新論文給出了一個讓人不太舒服的答案：「唯一電路」可能從一開始就不存在。同一個任務，可以由許多結構上幾乎完全不重疊、卻有著同樣高任務能力、稀疏、完備的電路獨立完成。論文把這個被長期默認的前提命名為「功能各向異性假說」（Functional Anisotropy Hypothesis），并從實驗與理論兩種路徑，系統性地把它推翻了。

一個被默認了很久，卻從未被言明的假設

近幾年，circuit 與 sheaf 發現（Circuit and Sheaf Discovery，簡稱 CSD）成了機制可解釋性（Mechanistic Interpretability）里最熱門的方向之一。它的目標很直接：把大模型這個「黑盒」打開，找出模型在表現出某種能力時，內部到底是哪些組件（注意力頭、MLP）以及它們之間的哪些連接（作為殘差流信息傳遞通道）在真正起作用。

這里有兩個相關但不完全相同的概念。circuit 指的是在干預下因果相關的計算子圖；而 DiscoGP 提出的 sheaf，要求更嚴格：它不僅要因果相關，還必須能在獨立運行（被剪枝的邊只能傳遞被全部置零的激活值）時獨立支撐起任務表現。

本文主要圍繞 sheaf 展開，但結論對 circuit 同樣成立。無論是哪一種，幾乎所有已發表的 CSD 工作都隱式地傳達著同一個愿景：每一個能力都對應著一個在結構上被特化的、唯一的內部機制。

論文標題：All Circuits Lead to Rome: Rethinking Functional Anisotropy in Circuit and Sheaf Discovery for LLMs
作者：Xi Chen*, Mingyu Jin*, Jingcheng Niu*, Yutong Yin, Jinman Zhao, Bangwei Guo, Dimitris N. Metaxas, Zhaoran Wang, Yutao Yue?, Gerald Penn?（* 共同一作，?通訊作者）
機構：多倫多大學、香港科技大學（廣州）、羅格斯大學、達姆施塔特工業大學、西北大學
會議：ICML 2026（韓國，首爾）
論文：https://openreview.net/forum?id=3uC9teMlUt
代碼：https://github.com/TonyXiChen/OASR

這篇論文把這個假設稱為功能各向異性假說。它聽上去合理，也確實主導了整個領域的評測范式：基于 Tracr 的合成基準，用「發現的 circuit 與預設的 ground-truth 機制有多吻合」來打分；像 MIB（Mechanistic Interpretability Benchmark, 一個機制可解釋性評測基準），則獎勵那些用最少組件達到高性能的 circuit。兩者都隱式地默認「同一模型內，一個任務對應一個機制解釋上的正確答案」，并默認進一步壓縮終將收斂到一個唯一的、不可或缺的核心機理。

但如果這個前提本身是錯的呢？

同一個任務，可以由幾乎不重疊的兩條電路完成

為了系統性地把「另一條路」找出來，作者提出了重疊感知的 sheaf 排斥（Overlap-Aware Sheaf Repulsion，OASR）。這個思路簡單且優雅。

作為 CSD 的框架基底，DiscoGP 把 sheaf 發現通過 Gumbel-Sigmoid 建模成一個可微的「選邊」問題：給每條邊一個可學習的 logit，再在稀疏、任務性能、完備三個目標下通過 STE（Straight-Through Estimator）優化一個二值掩碼。

在經典的間接賓語識別（IOI）任務上，作者用這個方法找到了兩條 sheaf：A 和 B。結果如下表，兩者都在 IOI 上達到 100% 準確率，在完備性準確率、邊密度等標準指標上也旗鼓相當。按照現有的一切評判標準，A 和 B 都是「好 sheaf」，都具備充分的解釋力。

但真正驚人的是它們的重疊部分：交集只有 96 條邊，并集卻有 2351 條，交并比（IoU）僅為 4.1%，已經逼近在 DAG （有向無環圖）子圖限制下隨機選邊所能產生的重合度。

換句話說，兩條幾乎完全不同的 sheaf，支撐起了同一個任務、同樣的性能。這直接與功能各向異性假說相抵觸。

作者進一步排除了「這只是表面差異」的可能：通過逐層分析兩條 sheaf 的連邊交集，可以看到它們在中間層的邊分布有顯著不同。這不是簡單的重參數化或組件的換位，而是信息的流動與選取方式在層間的真正不同。

而且，這個現象不止 IOI 一個任務。作者在 BLiMP 的子任務：AGA、ANA、一系列 DNA 變體以及 Docstring 等常用基準上重復了同樣的流程，每個任務都能穩定地找到兩個任務性能相當，但 IoU 極低（普遍在 4%–11% 之間）的 sheaf。

電路越多，「共識」越少

對于一個模型，如果同一任務真有唯一的核心內部機制，那么直覺上，當我們發現的 sheaf 越來越多時，它們的交集應該逐漸收斂到那個核心。作者把這個直覺拿來做了實驗：對每個任務，通過 OASR 重復發現 20 次，看這 20 條 sheaf 的累計交集和累計并集如何演化。

結論恰恰相反。隨著 sheaf 數量增加，并集穩步增長，交集卻持續萎縮。在許多任務上，20 條 sheaf 的全局交集最后只剩下幾十條邊，對應的互 IoU 遠低于 1%（IOI 在 OASR 下僅為 0.15%）。而且，顯式地施加 OASR 這種重疊懲罰，會讓這個共享交集進一步縮小，同時幾乎不損失稀疏性和性能。這意味著：增加發現的 sheaf 數量，并不會讓它們收斂到一個共同的核心。更多的 sheaf，不會通向一個共識，它們只是揭示了更多互不相同、卻同樣可行的實現機制。

作者特別強調，這種「消失的交集」不能用隨機初始化的噪聲或發現過程的不穩定來解釋：在所有運行都產出高質量 sheaf 的前提下，交集結構依然極小，并且在顯式懲罰重疊時進一步收縮。

這不是某一種方法的「偏差」

一個自然的質疑是：會不會這只是 DiscoGP + OASR 這一種方法的特性？

作者把同樣的分析搬到了另外三種主流電路發現方法上：ACDC（啟發式的基于能力閾值的逐邊刪除），EAP（基于一階梯度歸因），Edge Pruning（EP）（基于梯度優化的剪枝）。盡管設計哲學迥異，三者都被默認是在「逼近那個唯一的解釋性子圖」。

結果，同樣的現象在每一種方法上都復現了：

ACDC 對遍歷順序敏感。注意力頭的索引本無語義優先級可言，但僅僅改變同一層內注意力頭的遍歷順序，在完全相同的閾值下，ACDC 就會給出結構差異巨大、IoU 遠離 1 的不同電路。
EAP 對任務無關信息敏感。在 IOI 里，把提示中的 John、Mary 換成 Alice、Bob，本應是完全等價的任務。但僅僅替換這些與任務無關的名字，EAP 找到的電路之間的 IoU 就會隨著保留邊數 k 系統性地下降：一個真正唯一、被特化的機制，本不該對這種表面改動如此敏感。
EP 與 DiscoGP 同源。當把 EP 原本的 KL 散度目標換成 DiscoGP 所用的任務特定損失后，EP 同樣表現出電路的高度不一致性。原本看似「穩定」的算法行為，其實來自于在輸出的整個詞表分布上做對齊所帶來的假象。

跨越這些方法論上的巨大差異，結論是一致的：功能各向異性的失效，不是 DiscoGP 一家的問題，而是貫穿主流 circuit 與 sheaf 發現范式的普遍現象。

當連「核心」也被證明可有可無：三條邊的故事

到這里，一個退而求其次的希望仍然存在：就算電路不唯一，會不會至少有一部分共享組件，構成一個跨所有電路都存在的「不可或缺的核心」？非唯一性也許只發生在外圍，而真正關鍵的計算，集中在一個緊湊、不可替代的子電路里。

為了檢驗這個更弱的假說，作者做了一件更極端的實驗：從多條獨立的由 DiscoGP + OASR 發現的 IOI 電路里反復取交集并測試這種交集作為 IOI 電路的性能。這些交集電路在不斷縮小的同時竟然依舊高度可用：縮到 11 條邊時仍能保持 90% 以上的準確率。再從這 11 條邊出發窮舉搜索，最終他們分離出了一個超稀疏的三條邊的 sheaf：在 zero ablation (零值激活干預) 條件下，僅靠這三條邊，IOI 準確率達到 86.7%。

這三條邊分別是：

e?：初始輸入 Embedding → 第 0 層的 MLP
e?：第 0 層的 MLP → 第 10 層第 7 個注意力頭的 V Node
e?：第 10 層第 7 個注意力頭 → 最終的殘差流表示 Hidden Representation

乍一看，這三條邊簡直就是「不可或缺的核心」，因為如果把它們從已發現的 IOI 電路中移除，平均準確率會從高位跌到 52.3%；

在發現過程中明令禁止使用它們，DiscoGP 甚至無法再找到達成足夠高任務性能的 sheaf。一切都指向：模型確實反復依賴這個收斂到的的核心機制。

然而，這個結論恰恰建立在一個被忽視的前提上：把 IOI 當成一個不可分割的整體任務。

當作者把 IOI 拆解成 ABBA 與 BABA 兩個子模板，并要求在「三條邊全部禁用」的約束下重新做 sheaf 發現時，模型依然能找到稀疏（邊密度低于 3.5%），高度可用的電路，于下表給出。

于是論文確立了「非不可或缺性」：每一條邊都能被某條替代 sheaf 繞開。那個看似堅不可摧的「三條邊核心」之所以顯得不可或缺，僅僅是因為 IOI 被當成了一個聚合任務。一旦把子任務拆開，核心的「必要性」就煙消云散了。

一個理論解釋：分布式稠密電路假說

如果非唯一性如此普遍，那它背后是否有更深的原因？這是論文的核心理論貢獻：分布式稠密電路假說（Distributive Dense Circuit Hypothesis）。作者證明：電路解釋在一般情況下本就是非唯一的，而且這種非唯一性不是偶然，而是高維表示中疊加（superposition）的直接后果。

該直覺的合理化可以由如下步驟得出：

這對可解釋性研究意味著什么

需要強調的是，這篇論文并沒有否定 CSD 的價值：它發現的機制依然是有意義的、因果相關的。它真正動搖的，是我們解讀這些機制的方式。一條被發現的電路，不應再被當作「那個支撐任務的機制」來宣稱；它只是一個更大的、由功能等價機制構成的空間里的一種實現而已。

那種樸素的還原論視角，即把一個任務的行為歸因于一個唯一、稀疏、不可或缺的子圖，已經不足以解釋觀察到的非唯一性。取而代之的，是一種更分布式的計算機制理解：任務行為，源自一群共存且部分冗余的稠密機制的共同作用。

「條條電路通羅馬」這一論文的標題，恰好是它最精煉的注腳。

更多實驗細節（各方法隨機性來源分析、節點級重疊、逐個 sheaf 的完整統計、各任務的計算圖可視化等）與完整證明，可參見原論文及附錄。

作者簡介

本文由陳熙、金明宇、牛靖程共同作為第一作者完成。陳熙本科畢業于多倫多大學，本科期間師從多倫多大學 Gerald Penn 教授，并將于今年 9 月入學香港中文大學（深圳），師從杜夢楠教授攻讀人工智能方向博士學位。金明宇為在讀博士生。牛靖程于 2025 年獲得多倫多大學計算機科學博士學位，博士導師為 Gerald Penn 教授。完成本工作期間，陳熙在香港科技大學（廣州）岳玉濤副教授課題組擔任研究助理。尹禹童為西北大學在讀博士生；汪昭然為西北大學副教授，同時隸屬于西北大學深度學習中心和優化與統計學習中心。尹禹童和汪昭然教授對本文的理論構建給予了大力支持。本工作重點研究的電路發現算法之一為 DiscoGP，牛靖程為 DiscoGP 的共同第一作者。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.