網易首頁 > 網易號 > 正文申請入駐

以色列理工學院與IBM研究院揭開大語言模型推理黑箱

2026-06-13 15:00:03　來源: 科技行者

天津舉報

分享至

這項由以色列理工學院數據與決策科學系與IBM研究院聯合開展的研究，于2026年6月以預印本形式發布，論文編號為arXiv:2606.05972，感興趣的讀者可通過該編號查閱完整論文。

一、黑箱里的秘密：AI做決定時，我們為什么看不懂它的理由

當你去醫院看病，醫生告訴你"你得了流感"，你至少可以追問："為什么這么判斷？"醫生會解釋："你有高燒、全身酸痛、咳嗽，這些癥狀綜合起來指向流感。"整個推理過程是透明的、可追溯的。

然而，當你把同樣的癥狀描述輸入一個人工智能診斷系統，它給出了"流感"的結論，你問它"為什么"，它可能會生成一段聽起來頭頭是道的解釋——但這段解釋很可能根本不是它真正用來做判斷的依據。AI說的和AI想的，可以是兩回事。

這個問題不是無關痛癢的技術細節，而是一個關乎安全的核心挑戰。當AI系統被用于醫療診斷、法律判決或金融決策時，如果我們無法理解它真正的推理過程，那么一旦它出錯，我們既無法發現錯誤，也無法糾正錯誤。更危險的是，AI可能帶著錯誤的邏輯給出正確的答案，也可能帶著我們無法察覺的偏見做出看似合理的決定。

以色列理工學院與IBM研究院的研究團隊決定啃下這塊硬骨頭。他們的問題不是"AI在想什么詞"或"哪個神經元被激活了"，而是更根本的：**當AI完成一次分類任務時，它在概念層面上經歷了怎樣的推理路徑？**它關注了哪些高層次的概念？這些概念之間有著什么樣的因果關系？哪些概念最終決定了它的輸出？

二、兩張地圖的區別：研究的核心思路

要理解這項研究的獨特之處，可以借助一個地圖的比喻來思考。

研究人員在處理AI推理問題時，通常有兩種截然不同的出發點。第一種是"現實世界地圖"——研究者關心的是真實世界中的因果關系，比如"一個作者的性別會不會影響AI對文章的評價？"或者"某個癥狀在現實中是否真的導致某種疾病？"AI在這里充當的是一個分析工具，用來研究外部世界的規律。

第二種則是"AI推理地圖"——研究者關心的不是外部世界，而是AI這個系統本身：當AI讀完一段文字、做出一個判斷時，它內部走過了怎樣的概念路徑？這張地圖的起點是"文字"，終點是"預測結果"，中間經過的是一系列AI在認知上"感知到"的概念狀態。

以色列理工學院與IBM研究院的團隊選擇繪制的是第二種地圖，而且他們用來繪制這張地圖的工具，是因果圖（Causal Graph）。

因果圖是數學家和統計學家用來描述變量之間因果關系的工具。它的每一個節點代表一個變量，每一條有方向的箭頭代表一種因果影響關系。傳統上，因果圖被用來研究現實世界的機制，比如"吸煙→肺癌"這樣的關系鏈。而這項研究的新穎之處在于，他們把因果圖搬到了AI的"認知空間"里，用來描述AI是如何從輸入文字出發，經過一系列概念的感知和加工，最終得出預測結論的。

換句話說，這張因果圖不是在描述世界，而是在描述AI的思維結構。

三、四步拼圖：從一堆文字到一張思維地圖

研究團隊設計了一套由四個階段組成的自動化流程，就像組裝一幅拼圖一樣，每個階段都在為最終那張"AI思維地圖"添加關鍵的一塊。整個流程的主角既是被研究的對象（目標AI模型），也是生成研究數據的工具——研究者讓AI來解剖AI自己。

**階段一：讓AI用自己的標準來給數據貼標簽。**

通常，研究者手里有一批已經由人類專家標注好的數據，比如"這段病人描述屬于流感"。但研究團隊意識到，如果他們想研究的是AI的推理邏輯，就必須用AI自己的判斷作為基準，而不是人類的判斷。原因很簡單：AI可能和人類專家對同一個案例有不同的分類，而他們要研究的正是AI自己的分類依據。

于是第一步，他們把所有文本都輸入目標AI，讓AI對每一個案例做出自己的分類預測，用這些AI的預測結果替換原本的人類標注。從這一刻起，所有后續的分析都是在研究"AI眼中的世界"，而非"人類眼中的世界"。

**階段二：讓AI告訴我們它關注哪些概念。**

接下來是最核心的一步：提取"區分性概念"。研究團隊把數據分成小批次，每個批次包含來自不同類別的樣本，然后讓AI扮演一個分析師的角色，從這些樣本中歸納出能夠區分不同類別的高層次概念。

以醫療診斷為例，AI讀完一批關于偏頭痛、鼻竇炎和流感的病人描述后，可能會總結出"發燒"、"面部壓迫感"、"鼻塞"、"光敏感度"等概念，因為這些概念在不同疾病的描述中表現出了明顯的差異。

但光有概念還不夠，還需要知道對于每一個文本案例，AI是如何感知這些概念的。研究團隊定義了一套精巧的標注方式：對于每個概念，AI不只是回答"有或沒有"，而是要回答"這個概念在這段文字中存在嗎？如果存在，它指向哪些類別？"比如"頭痛"這個概念，在某段描述中可能被AI感知為同時支持偏頭痛和鼻竇炎兩種診斷，而在另一段描述中則被感知為不具有區分性。這種細膩的多層標注，為后續的因果分析提供了豐富的信息。

系統還會對提取出的概念進行篩選，去掉那些幾乎從不出現在文本中的概念（這些概念對分析沒什么幫助），也去掉那些對所有類別都同等適用、完全沒有區分力的概念。只有那些既常見、又有判別力的概念，才能留下來進入后續分析。

**階段三：用"變臉實驗"填補數據中的空白。**

這是整個研究中最具創意的一步，研究團隊稱之為"受馬爾可夫鏈蒙特卡洛方法啟發的反事實數據擴展"。聽起來非常高深，但核心思路其實可以用一個簡單的例子來理解。

因果分析就像偵探破案。偵探不僅需要看到現場已經發生的事，還需要做假設實驗：如果當時兇器不是刀而是槍，情況會有什么不同？如果嫌疑人當時不在場，結果會怎樣變化？這種"如果……會怎樣"的思維實驗，正是建立因果關系的關鍵。

對于AI推理的因果分析來說，同樣需要大量覆蓋不同概念組合的樣本。但現實中收集到的數據，往往只覆蓋了概念空間的一小部分——就像你手里只有幾塊拼圖，無法看出完整的畫面。

解決這個問題的辦法，就是讓AI自己生成"變臉版本"的文本。給定一段原始文本，研究團隊會選擇其中的某個目標概念，然后讓AI對這段文字進行改寫，使得目標概念的狀態發生變化，同時盡量保持其他概念不變。

舉個具體的例子：原始文本是"今天我吃了一顆鮮橙色的、軟爛的木瓜"，AI把它分類為"不好吃"（因為軟爛通常意味著過熟）。現在研究者選擇"軟硬度"這個概念，讓AI把它往"好吃"的方向改寫，于是AI生成了"今天我吃了一顆鮮橙色的、脆爽的木瓜"。這個新文本被AI重新標注概念狀態后，如果"軟硬度"概念確實發生了預期的變化，而其他概念（如"顏色"）保持不變，這個新樣本就被保留下來，加入數據集。

這個過程會對每個文本、每個概念、每個目標類別方向反復進行，就像一個連續運轉的改寫機器，不斷生產出覆蓋各種概念組合的新樣本。如果某次改寫的結果不符合要求（目標概念沒變化，或者其他太多概念發生了連帶變化），系統還會把失敗原因反饋給AI，讓它重新嘗試，最多重試五次。

經過這個階段，原本稀疏的數據集變得豐富而覆蓋全面，為最終的因果分析奠定了堅實基礎。

**階段四：用專業算法從數據中讀出因果結構。**

最后一步，研究團隊把擴充后的數據集輸入一個叫做σ-CG的因果發現算法。這個算法會分析各個概念變量之間的統計依賴關系，并從中推斷出因果關系的方向和結構，最終輸出一張有向圖——也就是那張"AI思維地圖"。

研究團隊選擇σ-CG這個算法有其特殊原因：它能處理離散變量（各個概念的狀態是有限幾種取值的類別變量，不是連續數字），而且它不強制要求圖中的關系是單向的、無循環的。這很重要，因為在AI的推理過程中，不同概念之間可能存在相互影響的循環關系，預先排除這種可能性會讓分析失去客觀性。在構建圖的過程中，研究團隊只加入了兩個來自外部的約束：文本節點只能發出箭頭、不能接收箭頭（它是因果鏈的起點）；預測結果節點只能接收箭頭、不能發出箭頭（它是因果鏈的終點）。

四、三場測試、三個AI：實驗是怎么做的

研究團隊選擇了三個不同的大語言模型來驗證這套方法：谷歌的Gemini-2-Flash、一個代號為gpt-OSS-20B的OpenAI開源模型，以及阿里巴巴的Qwen3-14B。這三個模型被應用在三種不同類型的分類任務上。

第一個任務是醫療診斷。數據集叫做LIBERTY，包含1448條人工生成的病人描述，每條描述需要被分類為偏頭痛、鼻竇炎或流感之一。這是一個合成數據集，也就是說研究者知道用來生成數據的真實因果結構，因此可以驗證算法提取出的概念是否與真實情況吻合。

第二個任務是情感分析。數據集是大名鼎鼎的IMDB電影評論數據集，包含2096條電影評論，每條評論需要被分類為正面或負面。這是一個"野生"數據集，沒有預設的因果結構，適合考察AI在面對真實世界數據時的表現。

第三個任務是"AI評法官"——讓AI判斷兩個AI回答哪個更好。數據集來自Reddit，包含395組問答對，每組包含一個用戶問題和兩個候選回答，AI需要選擇它認為更好的那個回答。這個任務特別具有挑戰性，因為不同的問題領域（美食、編程、旅行等）所適用的評判標準可能完全不同，無法用一張圖來統一描述。為此，研究團隊為每個問題單獨構建了一張因果圖。

五、地圖揭開后：AI們"想"的一樣嗎？

實驗結果帶來了幾個非常有意思的發現。

在醫療診斷任務上，三個AI模型提取出的概念高度一致。Gemini-2-Flash識別出了發燒、面部壓迫感、鼻塞、光敏感度這四個核心概念；gpt-OSS-20B在這四個概念之外還額外識別出了疲勞感；Qwen3-14B的結果也非常相似，多出了一個"系統性疲勞"的概念。這些概念，與生成這個數據集時所使用的真實因果結構中的變量基本一一對應。換句話說，在這個結構清晰的合成任務上，三個AI都成功"看穿"了數據背后的真實機制。

然而，盡管三個AI關注的概念相似，它們構建的因果圖卻各有不同。以偏頭痛為例，不同模型對"哪個癥狀是其他癥狀的原因、哪個癥狀是預測結果的直接父節點"有不同的判斷。這說明，即使面對同樣的信息，不同AI模型內部的推理結構也可能大相徑庭。

在情感分析任務上，這種分歧更加明顯。三個AI提取出的概念集合本身就有很大差異。Qwen3-14B關注的是"享受感、受眾吸引力、期望管理、情感沖擊、表演質量"；Gemini-2-Flash關注的是"享受感、滿足感、執行質量、真誠度、聚焦感"；gpt-OSS-20B關注的則是"推薦意愿、享受感、基調、受眾參與度、整體質量"。這些概念集合有部分重疊，但每個AI都有自己獨特的視角和側重。這表明，在面對真實世界的"模糊"任務時，不同AI模型確實發展出了不同的內部推理策略。

在"AI評法官"任務上，每個AI對不同問題的評判標準也顯現出了穩定的個性特征。Gemini-2-Flash在評判時往往更看重回答的簡潔直接性和實用性；gpt-OSS-20B則更關注回答的相關性和深度；Qwen3-14B則對回答的可行性和現實性給予了更多權重。

這些發現對實際應用有重要意義：當你在為某個高風險任務（比如醫療輔助決策）選擇AI模型時，僅僅比較準確率是不夠的，還需要了解不同模型各自的推理邏輯是否符合你的價值觀和業務需求。

六、驗證地圖的準確性：因果圖的評估方法

研究團隊面臨一個棘手的問題：如何驗證得出的因果圖是否真的反映了AI的推理邏輯？畢竟，沒有人知道AI推理的"標準答案"圖長什么樣，也沒有現成的基準可以對比。

研究團隊設計了一套聰明的間接驗證方案，核心思路是"預測性忠實度"檢驗——如果因果圖真的抓住了AI推理中的關鍵依賴關系，那么圖中每個節點的"父節點"集合，應該比其他任何概念組合都更能預測這個節點的狀態。

具體操作是這樣的：對于因果圖中的每一個節點（每個概念變量，以及最終的預測結果），研究團隊訓練了一個簡單的邏輯回歸模型，用這個節點的"因果父節點"集合來預測它的狀態。然后，他們把同樣的預測任務交給所有可能的其他概念子集來做，比較因果父節點集合的預測準確率與其他組合的平均準確率。

結果令人信服：在所有測試的模型和數據集上，因果圖確定的父節點集合的預測準確率，都顯著高于其他隨機概念組合的平均水平。更進一步，研究團隊還統計了因果父節點集合在所有可能組合的"準確率排行榜"上的位置，發現在絕大多數情況下，因果父節點集合都躋身準確率最高的前三名。

以其中一組數據為例：在醫療診斷任務上，使用因果圖父節點預測診斷結果的準確率為0.67，而使用其他不包含父節點集合的概念組合的平均準確率只有0.59。這0.08的差距在統計上是顯著的，而且在100%的交叉驗證折次中，因果父節點方案都躋身準確率前三。

七、"變臉實驗"真的有用嗎？

研究團隊還專門驗證了數據擴展階段的價值，也就是那套生成大量"變臉版本"文本的程序是否真的改善了最終結果。

他們設計了三種對比方案：第一種是直接用完整的原始數據集做因果分析；第二種是只用被選作MCMC擴展起點的那部分原始數據（叫做"種子數據"）做因果分析；第三種是用種子數據加上AI生成的反事實文本一起做因果分析。

結果顯示，"種子數據+反事實文本"這種組合在預測準確率上表現最佳，無論是預測最終的分類結果，還是預測中間的概念狀態。反事實數據的加入，為概念空間中原本覆蓋不足的區域提供了樣本，使得因果依賴關系的估計更加準確和穩定。

研究團隊還通過一種叫做"KL散度"的統計量來追蹤數據擴展過程是否真正收斂。KL散度可以理解為"當前數據分布與之前數據分布之間的差距"——如果這個差距隨著擴展的進行逐漸趨近于零，說明擴展過程已經飽和，繼續生成新樣本也不會改變數據的整體分布了。

為了確保這種收斂不是數學上的假象（因為隨著樣本數量增加，每個新樣本的影響權重天然會變小，KL散度也會因此自然下降），研究團隊設計了兩條理論邊界：一條是"完美重疊邊界"（每個新樣本都和已有樣本在同一個概念狀態上，代表完全無效的擴展），另一條是"完全正交邊界"（每個新樣本都落在一個全新的、之前從未見過的概念狀態上，代表最高效的探索）。如果實際的KL散度曲線從靠近"完全正交邊界"開始，隨著擴展進行逐漸向"完全重疊邊界"靠攏，這才是真正意義上的有效收斂。

實驗結果恰好呈現了這條期望中的軌跡：早期擴展階段，AI不斷發現新的概念狀態組合，KL散度接近正交邊界；隨著擴展的深入，越來越多的新樣本落入已有的概念區域，KL散度逐漸向重疊邊界靠近并趨于穩定。更值得關注的是，當KL散度趨于穩定之后，最終的因果圖結構也隨之穩定——繼續擴展數據不再改變因果圖中的邊結構，說明因果分析已經得到了足夠的信息。

八、方法的局限性：研究者自己承認的不完美之處

這項研究的團隊在論文中坦誠地列出了幾個值得關注的局限性。

概念提取依賴于分批處理的方式，而且每批次的樣本組合是隨機確定的。不同的分批方式可能導致AI提取出不同的概念集合，可能錯過某些重要的區分性概念，或者提取出的概念集合缺乏全面性。如果計算資源允許，進行多次隨機分批的提取實驗并取綜合結果，會比只做一次更可靠。

評估方法目前只驗證了每個節點的"父節點"集合的預測力，但沒有直接驗證更長的因果鏈條是否準確。也就是說，研究只證明了"A直接導致B"這一步是可信的，但沒有證明"A通過B再通過C最終導致D"這條完整路徑的整體準確性。

整個流程高度依賴目標AI自己來完成標注、生成反事實文本和判斷生成結果是否滿足要求。AI的自我評估并不保證完全準確，任何一步的錯誤都可能傳播到后續階段。研究團隊通過設置嚴格的接受標準來降低這種風險，但無法完全消除。未來的工作可以考慮引入人工審核或多個AI交叉驗證來進一步提升可靠性。

九、這對我們意味著什么

歸根結底，這項研究做了一件非常有價值的事：它讓我們第一次能夠用一張清晰的概念地圖，看清AI在做分類決策時的推理結構。

不再是"AI說它是這樣想的"，而是"通過觀察AI的行為模式，我們推斷出它實際上是這樣想的"。這兩者之間的區別，就如同聽一個人描述自己的性格，和觀察這個人在不同情境下的真實行為——后者往往更接近真相。

更重要的是，這種理解是可操作的。當你發現某個AI模型的推理圖中，"種族"這個概念對最終預測結果有直接的因果影響，你就知道這個模型可能存在偏見，需要進一步檢查。當你發現兩個準確率相近的模型在推理結構上截然不同，你就能根據自己的業務需求和價值判斷選擇更合適的那個。

這張"AI思維地圖"，正在把AI系統的選擇和使用，從盲目信任變成知情決策。

**Q&A**

Q1：因果圖在解釋AI推理時，和普通的"注意力分析"或"特征重要性"有什么本質區別？

A：普通的注意力分析或特征重要性方法只能告訴你AI在做決定時"看"了哪些詞或特征，但無法說明這些特征之間的關系，也無法區分相關性和因果性。因果圖則更進一步，它描述的是AI感知到的高層概念之間的直接因果影響關系，可以揭示哪些概念是哪些其他概念的"原因"，而不僅僅是和它們"一起出現"。這對于發現AI推理中的偏見或邏輯錯誤更有實際價值。

Q2：MCMC啟發的反事實數據擴展，和普通的數據增強方法有什么不同？

A：普通數據增強（比如翻轉圖片、同義詞替換）是為了增加樣本數量和多樣性，但沒有明確的目標概念控制。這項研究中的反事實擴展是有目的性的——每次改寫都針對一個特定的概念，試圖改變這個概念的狀態同時保持其他概念穩定。而且，系統會驗證生成的文本是否真的達到了預期的概念狀態變化，不符合要求的會被拒絕或重新生成。這種受控的、有目標的擴展方式，能夠系統性地覆蓋原始數據中缺失的概念狀態組合。

Q3：這套方法在醫療、法律等高風險場景中，實際部署時面臨的最大挑戰是什么？

A：最大的挑戰是方法本身依賴目標AI來生成和驗證數據，而AI的自我評估不能保證完全可靠。在高風險場景中，這種"讓AI解釋AI自己"的內生性問題可能帶來系統性偏差——如果AI本身存在某種固定的認知偏差，它在生成反事實文本和標注概念時也可能帶入同樣的偏差，導致最終的因果圖無法準確反映真實的推理結構。未來需要引入獨立的人工專家審核或多模型交叉驗證機制來降低這一風險。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.