无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

大模型的能力從哪些訓練數據來?北大&智源提出「機理數據歸因」

0
分享至



近年來,大語言模型展現出了越來越強的能力,從上下文學習(In-Context Learning, ICL)到復雜推理、代碼生成,這些能力不斷刷新人們對模型能力邊界的認知。

然而,對于這些能力究竟從何而來、又是在訓練過程中如何形成的,我們仍然知之甚少。

近年來興起的機理可解釋性(Mechanistic Interpretability)研究,開始嘗試揭示模型內部的計算機制。例如,「歸納頭」(Induction Heads)被廣泛認為是大模型涌現上下文學習能力的關鍵神經機制。這類注意力頭能夠識別并復制先前出現的模式,從而實現類似「從示例中學習」的行為。相關研究不僅在多個模型中發現了歸納頭的存在,也較為清晰地刻畫了它們在推理階段的工作方式。

然而,這類研究大多停留在事后分析(post hoc analysis)層面。我們能夠揭示模型內部的計算機制,并把計算機制逆向拆解成可理解的「電路」。我們能描述一個電路在推理時「算什么」,卻回答不了它「怎么來」—— 是哪一部分訓練數據、以怎樣的方式,在預訓練過程中把它塑造了出來?例如,我們已經能夠觀察歸納頭在訓練完成后的功能,卻仍不清楚它們究竟是如何在預訓練過程中形成的。

更進一步地,究竟是哪一部分訓練數據塑造了這種能力?是結構嚴謹的教科書文本,還是蘊含大量重復模式與邏輯結構的代碼語料?這些問題至今仍缺乏明確答案。

來自北京大學計算機學院和北京智源人工智能研究院的研究者,正是從這個被長期忽視的「數據溯源」維度切入,提出了機理數據歸因(Mechanistic Data Attribution, MDA)框架。它第一次把可解釋性的提問,從「模型內部有什么機制」,推進到「這些內部機制是被哪些訓練數據因果地塑造出來的」—— 并由此打通了一條「訓練數據 → 內部機制 → 模型行為」的因果鏈條。

而沿著這條鏈條,他們得到了一個相當反直覺的答案:真正催化歸納頭形成的,并不是人類眼中「高質量」的優美文本。那些看似雜亂無章、包含大量重復結構的「垃圾數據」(如 XML 標簽、亂碼般的 Base64 字符串、LaTeX 源代碼),才是塑造歸納頭的核心動力。

該工作已被機器學習頂級會議ICML 2026 接收為 Oral & Spotlight(168 / 23,918,錄用比 Top 0.7%)。



  • 論文標題:Mechanistic Data Attribution: Tracing the Training Origins of Interpretable LLM Units
  • 論文鏈接:https://arxiv.org/pdf/2601.21996
  • 代碼鏈接:https://github.com/chenjianhuii/Mechanistic-Data-Attribution

MDA 框架:可解釋單元級別的訓練數據歸因

要理解 MDA 的新意,先要看清它和傳統方法的分界。

經典的訓練數據歸因(Training Data Attribution, TDA)關注的是「某條數據對模型整體 Loss 的影響」。這就像只用一個人的「整體健康狀況」,去倒推他某天吃下的一粒維生素起了什么作用。這種方式粒度太粗、計算昂貴,也無法對應到任何一個具體的內部機制。

MDA 的核心轉變在于:不再關注全局模型行為,而是通過影響函數(Influence Functions)精確追蹤特定「可解釋單元」(如歸納頭)的形成源頭。



圖一:MDA 框架總覽。從定位可解釋單元,到計算數據影響力,再到因果驗證與干預。

具體而言,MDA 是一個三階段框架:

  1. 定位(Localizing):首先定義可解釋單元的監測指標(如針對歸納頭的前綴匹配分數),定位那些具備可解釋性的關鍵單元(例如神經元、注意力頭等)及其參數子空間;
  2. 歸因(Computing):利用 EK-FAC(特征值校正的 Kronecker 因子近似曲率)技術,高效估算海量訓練數據對特定參數子空間的影響分數。這使得在大規模預訓練語料中進行歸因成為可能;
  3. 干預(Intervening):通過「數據刪除」與「數據增強」實驗,因果性地驗證被篩出的高影響樣本是否真的塑造了目標機制。

值得一提的是,MDA 的計算開銷隨模型規模呈亞線性增長,作者還在 OLMo-2 1B / 7B 上做了定性驗證,表明這套歸因方法在更大模型上依然能穩定捕捉到一致的結構模式。

歸納頭形成的關鍵數據:重復的結構,比語義更重要

在 Pythia 模型家族(14M–160M)上的系統分析,揭示了歸納頭形成背后一系列令人意外、卻又自洽的規律:

1.高影響力樣本特征

對于歸納頭的形成,在按影響力排序的訓練數據中,排名前列的往往不是人類認為「高質量」的自然語言文本,而是充斥著重復結構的數據:

  • XML/HTML 代碼:充滿重復的標簽結構;
  • LaTeX 源碼:包含大量的符號和格式指令;
  • UUID 與日志:看似無意義的字符串重復;
  • Base64 編碼:字符層面的密集重復。



表一:代表性高影響力樣本示例

更關鍵的是,這些影響分數呈現出清晰的冪律分布 —— 約 10% 的樣本,貢獻了高達 50% 的累計影響力。也就是說,歸納頭機制的形成確實被一小撮「高杠桿」信號顯著驅動。

結論: 歸納頭的形成并不依賴于高深的語義邏輯,而是被這些高頻重復的結構模體(Structural Motifs) 所「催化」的。

這背后的解釋相當自洽:歸納頭的本職工作就是「識別并復制重復模式」,那么真正能高效「訓練」它的習題,自然就是這些充滿重復結構的數據。

2.因果驗證:刪除會抑制,增強會催化

從訓練數據到內部機制的因果驗證:

訓練數據的影響分數只能代表「相關性」,因果驗證才是 MDA 的核心。作者在 Pythia 全家族、兩類注意力頭(歸納頭與前序詞元頭)上做了雙向干預:

  • 刪除實驗(必要性):剔除 MDA 識別出的高影響樣本(≤10%),歸納頭的形成被顯著抑制或延后;而隨機刪除等量的其他樣本,幾乎沒有影響;
  • 增強實驗(充分性):反之,僅重復這一小撮關鍵樣本,就能讓歸納頭提前涌現;同樣地,隨機增強無此效果。

從內部機制到模型能力的因果驗證:

另外,「歸納頭是 ICL 的基礎」是領域內長期的核心假設,但此前的證據主要是觀測性的。借助 MDA 的精準干預,作者得以從訓練動態的視角檢驗這一因果鏈:在完全相同的刪除 / 增強設置下,歸納頭強度與 ICL 得分呈現「同升同降」的緊密耦合。抑制歸納頭形成會削弱 ICL,強化則會提升。





圖二:因果驗證實驗(上)歸納頭分數(下)ICL 能力分數。紅線顯示剔除 MDA 識別的數據后,歸納頭形成被延后;綠線顯示增強這些數據后,歸納頭迅速涌現,而 ICL 能力與歸納頭變化完全同步。

通過以上兩部分的因果干預試驗,MDA 打通了一條「訓練數據 → 內部機制 → 模型行為」的完整因果鏈條。

從「事后解釋」到「事前干預」:機理數據增強

如果我們已經知道了驅動某個機制形成的數據「配方」,能不能主動合成這類數據,去定向催化模型的特定能力?

論文順勢提出了一種機理數據增強框架(Mechanistic Data Augmentation):

  1. 小模型「探路」:利用較小的模型(如 Pythia-14M)運行 MDA,挖掘出高影響力樣本;
  2. 大模型總結:讓 DeepSeek-V3 等大模型分析這些樣本,提取出樣本中的共同結構特征;
  3. 批量合成數據:讓大模型編寫自動生成符合這些結構特征的合成數據的可執行代碼。



圖三:合成數據在不同規模模型上的效果。僅用 14M 模型挖掘出的模式生成的合成數據,就能在 160M 模型上顯著加速歸納頭的形成。

實驗結果有兩點令人振奮:

  • 跨尺度一致提升:這種基于機理的數據增強具有一致的「跨尺度遷移性」。同一套合成數據,在 14M / 31M / 70M / 160M 上分別帶來+12.3% / +10.8% / +15.8% / +9.8%的歸納頭得分提升。更有意思的是,從 14M 小模型提煉出的模式,遷移到 160M 模型上的效果,甚至超過了直接從 160M 自身提煉的數據—— 說明催化歸納頭的結構「配方」在很大程度上是尺度無關的,可以用小模型作為低成本代理來優化大模型訓練。
  • 不犧牲通用能力:在 Wikitext-103 語言建模與 PopQA 事實問答上,增強后的模型與基線曲線幾乎重合,沒有出現可統計區分的退化。這一對照排除了使用 MDA 會導致「為催化特定電路而損害整體能力」的擔憂。

結語

MDA 的意義遠不止「一個更精細的數據歸因工具」。它標志著可解釋性研究的一次角色轉變 ——從只會「解釋模型里有什么」,走向能夠「回答它從哪來、并動手干預它如何形成」。

更進一步,它為一個更大的愿景提供了一塊基石:讓大模型的訓練,從經驗主導的「黑盒煉丹」,走向機理驅動的「白盒構建」。沿著「數據 → 機制 → 行為」這條被 MDA 打通的因果鏈,至少有三個方向可以被打開:

  • 數據治理的新視角:傳統「高質量數據清洗」可能會誤刪那些對底層機制至關重要的「重復性廢話」。MDA 提醒我們,數據的價值需要從「對機制的因果貢獻」重新評估。
  • 更高效的預訓練(潛在方向):通過定向合成承載特定機制的結構數據,有望降低能力形成所需的訓練成本 —— 本文已給出小規模上的有力證據,更大規模的系統驗證則是值得期待的下一步。
  • 更本質的機理對齊:當我們能在數據層面精確地催化或抑制某個內部機制,「定向切除有害回路或偏見」這類更深層的對齊與遺忘(unlearning),就從理念變得有了可操作的抓手。

在大模型煉丹術日益精細的今天,MDA 帶來的是一把能追溯到數據源頭的顯微鏡 —— 它讓我們第一次有機會認真追問:模型的每一項能力,到底是被哪些數據、以怎樣的方式塑造出來的。未來,當這個問題能被系統地回答,大模型的「黑盒」,也許就不再那么黑了。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
謝霆鋒西安巡演辦大事!王菲帶《主角》劇組后臺聚餐,茍師笑開花

謝霆鋒西安巡演辦大事!王菲帶《主角》劇組后臺聚餐,茍師笑開花

天天熱點見聞
2026-06-28 11:15:19
穆里尼奧絕不慣著!皇馬億元水貨即將出局,世界杯成最后自救機會

穆里尼奧絕不慣著!皇馬億元水貨即將出局,世界杯成最后自救機會

瀾歸序
2026-06-28 08:13:16
三次警告無果,中方動真格,責令立刻停運!巴拿馬回應耐人尋味

三次警告無果,中方動真格,責令立刻停運!巴拿馬回應耐人尋味

愛好源自好奇心
2026-06-28 14:53:34
原來人都是突然走運的!網友:一年的時間賺到了十年的工資!

原來人都是突然走運的!網友:一年的時間賺到了十年的工資!

另子維愛讀史
2026-06-05 22:19:18
中國游客在日本列車駕駛室內拍照炫耀!列車員連喊2遍“Photo No!”,視頻在日網掀起熱議!

中國游客在日本列車駕駛室內拍照炫耀!列車員連喊2遍“Photo No!”,視頻在日網掀起熱議!

東京新青年
2026-06-28 18:05:51
1980年華國鋒為何主動辭職?臨終前秘書才透露出原因:他太實誠

1980年華國鋒為何主動辭職?臨終前秘書才透露出原因:他太實誠

輿圖看世界
2026-06-27 15:50:03
別再關注韓紅了,馮小剛的《抓特務》,問題超乎你的想象!

別再關注韓紅了,馮小剛的《抓特務》,問題超乎你的想象!

青橘罐頭
2026-06-27 09:29:46
學費最貴的十所大學來了!最高約100萬,你會報考嗎?

學費最貴的十所大學來了!最高約100萬,你會報考嗎?

史海流年號
2026-06-22 17:11:29
秦海璐變賣房產,清空全部資產,湊出近億身家,絕境兜底救下劉濤

秦海璐變賣房產,清空全部資產,湊出近億身家,絕境兜底救下劉濤

秋別離
2026-06-13 15:50:00
3+1!迪班薩正式確定球衣號碼!這個NBA狀元掌握流量密碼

3+1!迪班薩正式確定球衣號碼!這個NBA狀元掌握流量密碼

世界體育圈
2026-06-26 14:08:08
世界杯頭號臥底!巴薩水貨坑慘葡萄牙!C 羅全隊被他拖后腿

世界杯頭號臥底!巴薩水貨坑慘葡萄牙!C 羅全隊被他拖后腿

奶蓋熊本熊
2026-06-28 09:53:42
男子健身后臉上長“腳氣”,直呼太恐怖!有網友曾中招:坐了一會兒,屁股就長了一片痘痘

男子健身后臉上長“腳氣”,直呼太恐怖!有網友曾中招:坐了一會兒,屁股就長了一片痘痘

環球網資訊
2026-06-28 17:01:23
董勇沖上熱搜!白玉蘭后臺吃桃酥畫風可愛,網友:老年人最愛吃

董勇沖上熱搜!白玉蘭后臺吃桃酥畫風可愛,網友:老年人最愛吃

阿廢冷眼觀察所
2026-06-28 12:00:08
兩次同學聚會讓我徹底看明白:退休金超6000的老人,沒你想的多

兩次同學聚會讓我徹底看明白:退休金超6000的老人,沒你想的多

匹夫來搞笑
2026-06-15 17:57:18
佛得角隊長門德斯被曝正因強奸指控接受調查 事發今年3月,警方已調取酒店監控

佛得角隊長門德斯被曝正因強奸指控接受調查 事發今年3月,警方已調取酒店監控

紅星新聞
2026-06-28 08:18:32
派出所副所長帶著一群警務人員去KTV招異性陪侍 被紀委當場抓現行 處罰卻只是調崗

派出所副所長帶著一群警務人員去KTV招異性陪侍 被紀委當場抓現行 處罰卻只是調崗

閃電新聞
2026-06-28 17:37:50
馬科斯的軟肋被盟友突襲!菲阿基諾家族突然出手,彈劾案危險了!

馬科斯的軟肋被盟友突襲!菲阿基諾家族突然出手,彈劾案危險了!

李健政觀察
2026-06-28 14:35:58
中國電影的這場崩潰,為什么每個人都覺得“太爽了”?

中國電影的這場崩潰,為什么每個人都覺得“太爽了”?

東方不敗然多多
2026-06-27 10:30:19
2026年7月起死亡證明新規落地!房產存款保險全都受影響?

2026年7月起死亡證明新規落地!房產存款保險全都受影響?

老特有話說
2026-06-27 00:25:03
淘汰賽首戰:南非VS加拿大,比分精準預測,懸念還是挺大的

淘汰賽首戰:南非VS加拿大,比分精準預測,懸念還是挺大的

寶哥精彩賽事
2026-06-28 12:16:08
2026-06-28 19:48:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
13379文章數 142681關注度
往期回顧 全部

科技要聞

DeepSeek最新論文:如何讓大模型跑得更快

頭條要聞

李在明發文批韓國隊:把無能之輩放到指揮位置是失敗

頭條要聞

李在明發文批韓國隊:把無能之輩放到指揮位置是失敗

體育要聞

韓國可算確定被淘汰了

娛樂要聞

曾沛慈拿下《乘風2026》年度總冠軍

財經要聞

兩只股票撐起的韓國股市,半年熔斷?33 次

汽車要聞

搭載華為乾崑六件套 東風奕派M8預售19.98萬起

態度原創

教育
親子
藝術
游戲
手機

教育要聞

全面發展,從來不是成績的敵人

親子要聞

腸道真菌菌群紊亂增加兒童過敏風險

藝術要聞

23幅 張文惠風景油畫選

《天國:拯救3》明年發售?開發商同時開發兩款RPG

手機要聞

1999元起 榮耀X80 Pro Max首銷大賣:斬獲2026年安卓新品首銷日銷量第一

無障礙瀏覽 進入關懷版