![]()
近年來,大語言模型展現出了越來越強的能力,從上下文學習(In-Context Learning, ICL)到復雜推理、代碼生成,這些能力不斷刷新人們對模型能力邊界的認知。
然而,對于這些能力究竟從何而來、又是在訓練過程中如何形成的,我們仍然知之甚少。
近年來興起的機理可解釋性(Mechanistic Interpretability)研究,開始嘗試揭示模型內部的計算機制。例如,「歸納頭」(Induction Heads)被廣泛認為是大模型涌現上下文學習能力的關鍵神經機制。這類注意力頭能夠識別并復制先前出現的模式,從而實現類似「從示例中學習」的行為。相關研究不僅在多個模型中發現了歸納頭的存在,也較為清晰地刻畫了它們在推理階段的工作方式。
然而,這類研究大多停留在事后分析(post hoc analysis)層面。我們能夠揭示模型內部的計算機制,并把計算機制逆向拆解成可理解的「電路」。我們能描述一個電路在推理時「算什么」,卻回答不了它「怎么來」—— 是哪一部分訓練數據、以怎樣的方式,在預訓練過程中把它塑造了出來?例如,我們已經能夠觀察歸納頭在訓練完成后的功能,卻仍不清楚它們究竟是如何在預訓練過程中形成的。
更進一步地,究竟是哪一部分訓練數據塑造了這種能力?是結構嚴謹的教科書文本,還是蘊含大量重復模式與邏輯結構的代碼語料?這些問題至今仍缺乏明確答案。
來自北京大學計算機學院和北京智源人工智能研究院的研究者,正是從這個被長期忽視的「數據溯源」維度切入,提出了機理數據歸因(Mechanistic Data Attribution, MDA)框架。它第一次把可解釋性的提問,從「模型內部有什么機制」,推進到「這些內部機制是被哪些訓練數據因果地塑造出來的」—— 并由此打通了一條「訓練數據 → 內部機制 → 模型行為」的因果鏈條。
而沿著這條鏈條,他們得到了一個相當反直覺的答案:真正催化歸納頭形成的,并不是人類眼中「高質量」的優美文本。那些看似雜亂無章、包含大量重復結構的「垃圾數據」(如 XML 標簽、亂碼般的 Base64 字符串、LaTeX 源代碼),才是塑造歸納頭的核心動力。
該工作已被機器學習頂級會議ICML 2026 接收為 Oral & Spotlight(168 / 23,918,錄用比 Top 0.7%)。
![]()
- 論文標題:Mechanistic Data Attribution: Tracing the Training Origins of Interpretable LLM Units
- 論文鏈接:https://arxiv.org/pdf/2601.21996
- 代碼鏈接:https://github.com/chenjianhuii/Mechanistic-Data-Attribution
MDA 框架:可解釋單元級別的訓練數據歸因
要理解 MDA 的新意,先要看清它和傳統方法的分界。
經典的訓練數據歸因(Training Data Attribution, TDA)關注的是「某條數據對模型整體 Loss 的影響」。這就像只用一個人的「整體健康狀況」,去倒推他某天吃下的一粒維生素起了什么作用。這種方式粒度太粗、計算昂貴,也無法對應到任何一個具體的內部機制。
MDA 的核心轉變在于:不再關注全局模型行為,而是通過影響函數(Influence Functions)精確追蹤特定「可解釋單元」(如歸納頭)的形成源頭。
![]()
圖一:MDA 框架總覽。從定位可解釋單元,到計算數據影響力,再到因果驗證與干預。
具體而言,MDA 是一個三階段框架:
- 定位(Localizing):首先定義可解釋單元的監測指標(如針對歸納頭的前綴匹配分數),定位那些具備可解釋性的關鍵單元(例如神經元、注意力頭等)及其參數子空間;
- 歸因(Computing):利用 EK-FAC(特征值校正的 Kronecker 因子近似曲率)技術,高效估算海量訓練數據對特定參數子空間的影響分數。這使得在大規模預訓練語料中進行歸因成為可能;
- 干預(Intervening):通過「數據刪除」與「數據增強」實驗,因果性地驗證被篩出的高影響樣本是否真的塑造了目標機制。
值得一提的是,MDA 的計算開銷隨模型規模呈亞線性增長,作者還在 OLMo-2 1B / 7B 上做了定性驗證,表明這套歸因方法在更大模型上依然能穩定捕捉到一致的結構模式。
歸納頭形成的關鍵數據:重復的結構,比語義更重要
在 Pythia 模型家族(14M–160M)上的系統分析,揭示了歸納頭形成背后一系列令人意外、卻又自洽的規律:
1.高影響力樣本特征
對于歸納頭的形成,在按影響力排序的訓練數據中,排名前列的往往不是人類認為「高質量」的自然語言文本,而是充斥著重復結構的數據:
- XML/HTML 代碼:充滿重復的標簽結構;
- LaTeX 源碼:包含大量的符號和格式指令;
- UUID 與日志:看似無意義的字符串重復;
- Base64 編碼:字符層面的密集重復。
![]()
表一:代表性高影響力樣本示例
更關鍵的是,這些影響分數呈現出清晰的冪律分布 —— 約 10% 的樣本,貢獻了高達 50% 的累計影響力。也就是說,歸納頭機制的形成確實被一小撮「高杠桿」信號顯著驅動。
結論: 歸納頭的形成并不依賴于高深的語義邏輯,而是被這些高頻重復的結構模體(Structural Motifs) 所「催化」的。
這背后的解釋相當自洽:歸納頭的本職工作就是「識別并復制重復模式」,那么真正能高效「訓練」它的習題,自然就是這些充滿重復結構的數據。
2.因果驗證:刪除會抑制,增強會催化
從訓練數據到內部機制的因果驗證:
訓練數據的影響分數只能代表「相關性」,因果驗證才是 MDA 的核心。作者在 Pythia 全家族、兩類注意力頭(歸納頭與前序詞元頭)上做了雙向干預:
- 刪除實驗(必要性):剔除 MDA 識別出的高影響樣本(≤10%),歸納頭的形成被顯著抑制或延后;而隨機刪除等量的其他樣本,幾乎沒有影響;
- 增強實驗(充分性):反之,僅重復這一小撮關鍵樣本,就能讓歸納頭提前涌現;同樣地,隨機增強無此效果。
從內部機制到模型能力的因果驗證:
另外,「歸納頭是 ICL 的基礎」是領域內長期的核心假設,但此前的證據主要是觀測性的。借助 MDA 的精準干預,作者得以從訓練動態的視角檢驗這一因果鏈:在完全相同的刪除 / 增強設置下,歸納頭強度與 ICL 得分呈現「同升同降」的緊密耦合。抑制歸納頭形成會削弱 ICL,強化則會提升。
![]()
![]()
圖二:因果驗證實驗(上)歸納頭分數(下)ICL 能力分數。紅線顯示剔除 MDA 識別的數據后,歸納頭形成被延后;綠線顯示增強這些數據后,歸納頭迅速涌現,而 ICL 能力與歸納頭變化完全同步。
通過以上兩部分的因果干預試驗,MDA 打通了一條「訓練數據 → 內部機制 → 模型行為」的完整因果鏈條。
從「事后解釋」到「事前干預」:機理數據增強
如果我們已經知道了驅動某個機制形成的數據「配方」,能不能主動合成這類數據,去定向催化模型的特定能力?
論文順勢提出了一種機理數據增強框架(Mechanistic Data Augmentation):
- 小模型「探路」:利用較小的模型(如 Pythia-14M)運行 MDA,挖掘出高影響力樣本;
- 大模型總結:讓 DeepSeek-V3 等大模型分析這些樣本,提取出樣本中的共同結構特征;
- 批量合成數據:讓大模型編寫自動生成符合這些結構特征的合成數據的可執行代碼。
![]()
圖三:合成數據在不同規模模型上的效果。僅用 14M 模型挖掘出的模式生成的合成數據,就能在 160M 模型上顯著加速歸納頭的形成。
實驗結果有兩點令人振奮:
- 跨尺度一致提升:這種基于機理的數據增強具有一致的「跨尺度遷移性」。同一套合成數據,在 14M / 31M / 70M / 160M 上分別帶來+12.3% / +10.8% / +15.8% / +9.8%的歸納頭得分提升。更有意思的是,從 14M 小模型提煉出的模式,遷移到 160M 模型上的效果,甚至超過了直接從 160M 自身提煉的數據—— 說明催化歸納頭的結構「配方」在很大程度上是尺度無關的,可以用小模型作為低成本代理來優化大模型訓練。
- 不犧牲通用能力:在 Wikitext-103 語言建模與 PopQA 事實問答上,增強后的模型與基線曲線幾乎重合,沒有出現可統計區分的退化。這一對照排除了使用 MDA 會導致「為催化特定電路而損害整體能力」的擔憂。
結語
MDA 的意義遠不止「一個更精細的數據歸因工具」。它標志著可解釋性研究的一次角色轉變 ——從只會「解釋模型里有什么」,走向能夠「回答它從哪來、并動手干預它如何形成」。
更進一步,它為一個更大的愿景提供了一塊基石:讓大模型的訓練,從經驗主導的「黑盒煉丹」,走向機理驅動的「白盒構建」。沿著「數據 → 機制 → 行為」這條被 MDA 打通的因果鏈,至少有三個方向可以被打開:
- 數據治理的新視角:傳統「高質量數據清洗」可能會誤刪那些對底層機制至關重要的「重復性廢話」。MDA 提醒我們,數據的價值需要從「對機制的因果貢獻」重新評估。
- 更高效的預訓練(潛在方向):通過定向合成承載特定機制的結構數據,有望降低能力形成所需的訓練成本 —— 本文已給出小規模上的有力證據,更大規模的系統驗證則是值得期待的下一步。
- 更本質的機理對齊:當我們能在數據層面精確地催化或抑制某個內部機制,「定向切除有害回路或偏見」這類更深層的對齊與遺忘(unlearning),就從理念變得有了可操作的抓手。
在大模型煉丹術日益精細的今天,MDA 帶來的是一把能追溯到數據源頭的顯微鏡 —— 它讓我們第一次有機會認真追問:模型的每一項能力,到底是被哪些數據、以怎樣的方式塑造出來的。未來,當這個問題能被系統地回答,大模型的「黑盒」,也許就不再那么黑了。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.