![]()
長期以來,機制可解釋性(mechanistic interpretability)領域有一個幾乎從未被明說、卻被視為理所當然的前提:模型對于同一種任務的能力或表現,背后對應著一條唯一的、或近乎唯一的內部「電路」(circuit)。該領域的研究者們之所以要做「電路發現」(circuit discovery),是為了要把這些「特定的」電路找出來。
但一篇被 ICML 2026 接收的新論文給出了一個讓人不太舒服的答案:「唯一電路」可能從一開始就不存在。 同一個任務,可以由許多結構上幾乎完全不重疊、卻有著同樣高任務能力、稀疏、完備的電路獨立完成。論文把這個被長期默認的前提命名為「功能各向異性假說」(Functional Anisotropy Hypothesis),并從實驗與理論兩種路徑,系統性地把它推翻了。
一個被默認了很久,卻從未被言明的假設
近幾年,circuit 與 sheaf 發現(Circuit and Sheaf Discovery,簡稱 CSD)成了機制可解釋性(Mechanistic Interpretability)里最熱門的方向之一。它的目標很直接:把大模型這個「黑盒」打開,找出模型在表現出某種能力時,內部到底是哪些組件(注意力頭、MLP)以及它們之間的哪些連接(作為殘差流信息傳遞通道)在真正起作用。
這里有兩個相關但不完全相同的概念。circuit 指的是在干預下因果相關的計算子圖;而 DiscoGP 提出的 sheaf,要求更嚴格:它不僅要因果相關,還必須能在獨立運行(被剪枝的邊只能傳遞被全部置零的激活值)時獨立支撐起任務表現。
本文主要圍繞 sheaf 展開,但結論對 circuit 同樣成立。無論是哪一種,幾乎所有已發表的 CSD 工作都隱式地傳達著同一個愿景:每一個能力都對應著一個在結構上被特化的、唯一的內部機制。
![]()
- 論文標題:All Circuits Lead to Rome: Rethinking Functional Anisotropy in Circuit and Sheaf Discovery for LLMs
- 作者:Xi Chen*, Mingyu Jin*, Jingcheng Niu*, Yutong Yin, Jinman Zhao, Bangwei Guo, Dimitris N. Metaxas, Zhaoran Wang, Yutao Yue?, Gerald Penn?(* 共同一作,?通訊作者)
- 機構:多倫多大學、香港科技大學(廣州)、羅格斯大學、達姆施塔特工業大學、西北大學
- 會議:ICML 2026(韓國,首爾)
- 論文:https://openreview.net/forum?id=3uC9teMlUt
- 代碼:https://github.com/TonyXiChen/OASR
這篇論文把這個假設稱為功能各向異性假說。它聽上去合理,也確實主導了整個領域的評測范式:基于 Tracr 的合成基準,用「發現的 circuit 與預設的 ground-truth 機制有多吻合」來打分;像 MIB(Mechanistic Interpretability Benchmark, 一個機制可解釋性評測基準),則獎勵那些用最少組件達到高性能的 circuit。兩者都隱式地默認「同一模型內,一個任務對應一個機制解釋上的正確答案」,并默認進一步壓縮終將收斂到一個唯一的、不可或缺的核心機理。
但如果這個前提本身是錯的呢?
![]()
同一個任務,可以由幾乎不重疊的兩條電路完成
為了系統性地把「另一條路」找出來,作者提出了重疊感知的 sheaf 排斥(Overlap-Aware Sheaf Repulsion,OASR)。這個思路簡單且優雅。
作為 CSD 的框架基底,DiscoGP 把 sheaf 發現通過 Gumbel-Sigmoid 建模成一個可微的「選邊」問題:給每條邊一個可學習的 logit,再在稀疏、任務性能、完備三個目標下通過 STE(Straight-Through Estimator) 優化一個二值掩碼。
![]()
在經典的間接賓語識別(IOI) 任務上,作者用這個方法找到了兩條 sheaf:A 和 B。結果如下表,兩者都在 IOI 上達到 100% 準確率,在完備性準確率、邊密度等標準指標上也旗鼓相當。按照現有的一切評判標準,A 和 B 都是「好 sheaf」,都具備充分的解釋力。
![]()
但真正驚人的是它們的重疊部分:交集只有 96 條邊,并集卻有 2351 條,交并比(IoU)僅為 4.1%,已經逼近在 DAG (有向無環圖)子圖限制下隨機選邊所能產生的重合度。
換句話說,兩條幾乎完全不同的 sheaf,支撐起了同一個任務、同樣的性能。這直接與功能各向異性假說相抵觸。
作者進一步排除了「這只是表面差異」的可能:通過逐層分析兩條 sheaf 的連邊交集,可以看到它們在中間層的邊分布有顯著不同。這不是簡單的重參數化或組件的換位,而是信息的流動與選取方式在層間的真正不同。
![]()
而且,這個現象不止 IOI 一個任務。作者在 BLiMP 的子任務:AGA、ANA、一系列 DNA 變體以及 Docstring 等常用基準上重復了同樣的流程,每個任務都能穩定地找到兩個任務性能相當,但 IoU 極低(普遍在 4%–11% 之間)的 sheaf。
電路越多,「共識」越少
對于一個模型,如果同一任務真有唯一的核心內部機制,那么直覺上,當我們發現的 sheaf 越來越多時,它們的交集應該逐漸收斂到那個核心。作者把這個直覺拿來做了實驗:對每個任務,通過 OASR 重復發現 20 次,看這 20 條 sheaf 的累計交集和累計并集如何演化。
結論恰恰相反。隨著 sheaf 數量增加,并集穩步增長,交集卻持續萎縮。在許多任務上,20 條 sheaf 的全局交集最后只剩下幾十條邊,對應的互 IoU 遠低于 1%(IOI 在 OASR 下僅為 0.15%)。而且,顯式地施加 OASR 這種重疊懲罰,會讓這個共享交集進一步縮小,同時幾乎不損失稀疏性和性能。這意味著:增加發現的 sheaf 數量,并不會讓它們收斂到一個共同的核心。更多的 sheaf,不會通向一個共識,它們只是揭示了更多互不相同、卻同樣可行的實現機制。
作者特別強調,這種「消失的交集」不能用隨機初始化的噪聲或發現過程的不穩定來解釋:在所有運行都產出高質量 sheaf 的前提下,交集結構依然極小,并且在顯式懲罰重疊時進一步收縮。
![]()
這不是某一種方法的「偏差」
一個自然的質疑是:會不會這只是 DiscoGP + OASR 這一種方法的特性?
作者把同樣的分析搬到了另外三種主流電路發現方法上:ACDC(啟發式的基于能力閾值的逐邊刪除),EAP(基于一階梯度歸因),Edge Pruning(EP)(基于梯度優化的剪枝)。盡管設計哲學迥異,三者都被默認是在「逼近那個唯一的解釋性子圖」。
結果,同樣的現象在每一種方法上都復現了:
- ACDC 對遍歷順序敏感。注意力頭的索引本無語義優先級可言,但僅僅改變同一層內注意力頭的遍歷順序,在完全相同的閾值下,ACDC 就會給出結構差異巨大、IoU 遠離 1 的不同電路。
- EAP 對任務無關信息敏感。在 IOI 里,把提示中的 John、Mary 換成 Alice、Bob,本應是完全等價的任務。但僅僅替換這些與任務無關的名字,EAP 找到的電路之間的 IoU 就會隨著保留邊數 k 系統性地下降:一個真正唯一、被特化的機制,本不該對這種表面改動如此敏感。
- EP 與 DiscoGP 同源。當把 EP 原本的 KL 散度目標換成 DiscoGP 所用的任務特定損失后,EP 同樣表現出電路的高度不一致性。原本看似「穩定」的算法行為,其實來自于在輸出的整個詞表分布上做對齊所帶來的假象。
跨越這些方法論上的巨大差異,結論是一致的:功能各向異性的失效,不是 DiscoGP 一家的問題,而是貫穿主流 circuit 與 sheaf 發現范式的普遍現象。
當連「核心」也被證明可有可無:三條邊的故事
到這里,一個退而求其次的希望仍然存在:就算電路不唯一,會不會至少有一部分共享組件,構成一個跨所有電路都存在的「不可或缺的核心」?非唯一性也許只發生在外圍,而真正關鍵的計算,集中在一個緊湊、不可替代的子電路里。
為了檢驗這個更弱的假說,作者做了一件更極端的實驗:從多條獨立的由 DiscoGP + OASR 發現的 IOI 電路里反復取交集并測試這種交集作為 IOI 電路的性能。這些交集電路在不斷縮小的同時竟然依舊高度可用:縮到 11 條邊時仍能保持 90% 以上的準確率。再從這 11 條邊出發窮舉搜索,最終他們分離出了一個超稀疏的三條邊的 sheaf:在 zero ablation (零值激活干預) 條件下,僅靠這三條邊,IOI 準確率達到 86.7%。
![]()
這三條邊分別是:
- e?:初始輸入 Embedding → 第 0 層的 MLP
- e?:第 0 層的 MLP → 第 10 層第 7 個注意力頭的 V Node
- e?:第 10 層第 7 個注意力頭 → 最終的殘差流表示 Hidden Representation
乍一看,這三條邊簡直就是「不可或缺的核心」,因為如果把它們從已發現的 IOI 電路中移除,平均準確率會從高位跌到 52.3%;
在發現過程中明令禁止使用它們,DiscoGP 甚至無法再找到達成足夠高任務性能的 sheaf。一切都指向:模型確實反復依賴這個收斂到的的核心機制。
然而,這個結論恰恰建立在一個被忽視的前提上:把 IOI 當成一個不可分割的整體任務。
當作者把 IOI 拆解成 ABBA 與 BABA 兩個子模板,并要求在「三條邊全部禁用」的約束下重新做 sheaf 發現時,模型依然能找到稀疏(邊密度低于 3.5%),高度可用的電路,于下表給出。
![]()
于是論文確立了「非不可或缺性」:每一條邊都能被某條替代 sheaf 繞開。那個看似堅不可摧的「三條邊核心」之所以顯得不可或缺,僅僅是因為 IOI 被當成了一個聚合任務。一旦把子任務拆開,核心的「必要性」就煙消云散了。
一個理論解釋:分布式稠密電路假說
如果非唯一性如此普遍,那它背后是否有更深的原因?這是論文的核心理論貢獻:分布式稠密電路假說(Distributive Dense Circuit Hypothesis)。作者證明:電路解釋在一般情況下本就是非唯一的,而且這種非唯一性不是偶然,而是高維表示中疊加(superposition)的直接后果。
該直覺的合理化可以由如下步驟得出:
![]()
![]()
這對可解釋性研究意味著什么
需要強調的是,這篇論文并沒有否定 CSD 的價值:它發現的機制依然是有意義的、因果相關的。它真正動搖的,是我們解讀這些機制的方式。一條被發現的電路,不應再被當作「那個支撐任務的機制」來宣稱;它只是一個更大的、由功能等價機制構成的空間里的一種實現而已。
那種樸素的還原論視角,即把一個任務的行為歸因于一個唯一、稀疏、不可或缺的子圖,已經不足以解釋觀察到的非唯一性。取而代之的,是一種更分布式的計算機制理解:任務行為,源自一群共存且部分冗余的稠密機制的共同作用。
「條條電路通羅馬」這一論文的標題,恰好是它最精煉的注腳。
更多實驗細節(各方法隨機性來源分析、節點級重疊、逐個 sheaf 的完整統計、各任務的計算圖可視化等)與完整證明,可參見原論文及附錄。
作者簡介
本文由陳熙、金明宇、牛靖程共同作為第一作者完成。陳熙本科畢業于多倫多大學,本科期間師從多倫多大學 Gerald Penn 教授,并將于今年 9 月入學香港中文大學(深圳),師從杜夢楠教授攻讀人工智能方向博士學位。金明宇為在讀博士生。牛靖程于 2025 年獲得多倫多大學計算機科學博士學位,博士導師為 Gerald Penn 教授。完成本工作期間,陳熙在香港科技大學(廣州)岳玉濤副教授課題組擔任研究助理。尹禹童為西北大學在讀博士生;汪昭然為西北大學副教授,同時隸屬于西北大學深度學習中心和優化與統計學習中心。尹禹童和汪昭然教授對本文的理論構建給予了大力支持。本工作重點研究的電路發現算法之一為 DiscoGP,牛靖程為 DiscoGP 的共同第一作者。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.