網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

弗吉尼亞大學(xué)與Capital One揭開(kāi)"圖語(yǔ)言模型"的隱藏bug

2026-06-10 21:10:54　來(lái)源: 科技行者

天津舉報(bào)

分享至

這項(xiàng)由弗吉尼亞大學(xué)與Capital One聯(lián)合開(kāi)展的研究，于2026年6月以預(yù)印本形式發(fā)布，論文編號(hào)為arXiv:2606.03712，有興趣深入了解的讀者可通過(guò)該編號(hào)查詢完整論文。

**一個(gè)看似理所當(dāng)然的假設(shè)，可能從一開(kāi)始就是錯(cuò)的**

近年來(lái)，大語(yǔ)言模型（比如大家熟悉的ChatGPT背后的那類(lèi)技術(shù)）已經(jīng)不滿足于只處理文字了。研究者們開(kāi)始嘗試讓它們"讀懂"圖結(jié)構(gòu)數(shù)據(jù)——比如社交網(wǎng)絡(luò)里誰(shuí)認(rèn)識(shí)誰(shuí)、論文引用關(guān)系中誰(shuí)引用了誰(shuí)、分子結(jié)構(gòu)中哪個(gè)原子連著哪個(gè)原子。于是，一種叫做"圖語(yǔ)言模型"（Graph Language Models，GLMs）的新技術(shù)應(yīng)運(yùn)而生。

這種技術(shù)的核心思路聽(tīng)起來(lái)很聰明：把復(fù)雜的圖結(jié)構(gòu)"翻譯"成一串文字符號(hào)（專業(yè)上叫"圖token"），然后喂給大語(yǔ)言模型處理。就像把一張地圖描述成一段文字，然后交給一個(gè)只認(rèn)識(shí)文字的人來(lái)理解。但弗吉尼亞大學(xué)和Capital One的研究團(tuán)隊(duì)心里有一個(gè)疑問(wèn)：這個(gè)翻譯過(guò)程真的靠譜嗎？大語(yǔ)言模型在處理這些"翻譯來(lái)的圖信息"時(shí)，內(nèi)部到底發(fā)生了什么？

事實(shí)證明，答案相當(dāng)令人意外——這些模型內(nèi)部出現(xiàn)了一種被研究者稱為"圖沉沒(méi)現(xiàn)象"的奇特行為，而這個(gè)現(xiàn)象直接揭示了當(dāng)前圖語(yǔ)言模型的一個(gè)深層缺陷。

**一、什么是"注意力沉沒(méi)"，為什么圖模型也會(huì)中招**

在正式介紹研究發(fā)現(xiàn)之前，需要先聊一個(gè)背景概念，理解它會(huì)讓后面的一切豁然開(kāi)朗。

大語(yǔ)言模型在處理一段文字時(shí)，會(huì)用一種叫做"注意力機(jī)制"的方式來(lái)判斷哪些詞對(duì)當(dāng)前理解最重要。可以把它比作一個(gè)課堂里的學(xué)生，老師說(shuō)話時(shí)，學(xué)生會(huì)把更多注意力放在關(guān)鍵詞上，而忽略無(wú)關(guān)的詞。然而研究者發(fā)現(xiàn)，在實(shí)際運(yùn)行中，這些模型會(huì)養(yǎng)成一個(gè)奇怪的習(xí)慣：它們會(huì)把大量"注意力"集中投向某些特定的詞，而這些詞本身往往沒(méi)什么實(shí)際意義。這就像那個(gè)學(xué)生突然對(duì)黑板角落里一個(gè)不重要的標(biāo)點(diǎn)符號(hào)格外著迷，而忽略了老師正在講的重要內(nèi)容。這種現(xiàn)象被稱為"注意力沉沒(méi)"（Attention Sink）——某些詞像黑洞一樣吸走了大量注意力，卻不傳遞真正有用的信息。

這種現(xiàn)象在純文字模型和視覺(jué)語(yǔ)言模型中早已被發(fā)現(xiàn)和記錄。研究團(tuán)隊(duì)的核心問(wèn)題是：當(dāng)圖語(yǔ)言模型把圖結(jié)構(gòu)翻譯成token并喂給大語(yǔ)言模型時(shí)，會(huì)不會(huì)出現(xiàn)類(lèi)似甚至更嚴(yán)重的問(wèn)題？

研究團(tuán)隊(duì)選擇了兩個(gè)具有代表性的圖語(yǔ)言模型作為研究對(duì)象。第一個(gè)叫LLaGA，它的工作方式是把圖中的每個(gè)節(jié)點(diǎn)和它的鄰居關(guān)系原樣排列成一串token，就像把一棵家譜樹(shù)按順序?qū)懗梢涣忻帧５诙€(gè)叫TEA-GLM，它先用一個(gè)專門(mén)處理圖的神經(jīng)網(wǎng)絡(luò)（GNN）把整個(gè)圖的結(jié)構(gòu)壓縮提煉，然后把精華變成固定數(shù)量（5個(gè)）的特殊token，再交給大語(yǔ)言模型處理。這兩種模式代表了當(dāng)前圖語(yǔ)言模型的兩種主流設(shè)計(jì)思路，分別在三個(gè)學(xué)術(shù)數(shù)據(jù)集上進(jìn)行了測(cè)試：Cora（引用網(wǎng)絡(luò)）、Arxiv（論文數(shù)據(jù)庫(kù)）和PubMed（生物醫(yī)學(xué)文獻(xiàn)庫(kù)），涵蓋了節(jié)點(diǎn)分類(lèi)和鏈接預(yù)測(cè)兩類(lèi)典型任務(wù)。

**二、激活值異常：模型內(nèi)部的"噪聲制造者"**

研究團(tuán)隊(duì)首先做了一件事：直接"打開(kāi)"這些模型，看看圖token在模型內(nèi)部的神經(jīng)元激活情況。可以把神經(jīng)網(wǎng)絡(luò)想象成一個(gè)有成千上萬(wàn)個(gè)開(kāi)關(guān)的控制面板，每個(gè)開(kāi)關(guān)有自己的亮度（激活值）。正常情況下，大多數(shù)開(kāi)關(guān)應(yīng)該保持在一個(gè)適中的亮度范圍內(nèi)，隨著處理內(nèi)容的不同而溫和地變化。

然而，研究者發(fā)現(xiàn)了一個(gè)異常現(xiàn)象：在所有4096個(gè)"開(kāi)關(guān)"（隱藏維度）中，絕大多數(shù)都保持在很低的亮度，但有極少數(shù)幾個(gè)開(kāi)關(guān)會(huì)突然亮得異常刺眼。在LLaGA中，第1512號(hào)和第2533號(hào)維度會(huì)出現(xiàn)這種巨大的激活尖峰；在TEA-GLM中，第1512號(hào)維度幾乎在所有數(shù)據(jù)集和所有任務(wù)上都會(huì)出現(xiàn)這種異常高亮。這個(gè)模式跨越數(shù)據(jù)集、跨越任務(wù)，非常穩(wěn)定可重復(fù)。

這些產(chǎn)生異常激活的圖token，就是研究團(tuán)隊(duì)定義的"圖沉沒(méi)token"（Graph Sink Tokens）。研究者用一個(gè)數(shù)學(xué)公式來(lái)識(shí)別它們：對(duì)每個(gè)圖token的隱藏狀態(tài)做規(guī)范化處理后，取其在已知"沉沒(méi)維度"上的最大絕對(duì)值，如果這個(gè)值超過(guò)預(yù)設(shè)閾值（設(shè)為15.0），就把它標(biāo)記為圖沉沒(méi)token。

值得注意的是，第1512號(hào)維度的重復(fù)出現(xiàn)有些耐人尋味。在純文字版的LLaMA模型中，已知的沉沒(méi)維度通常是2533號(hào)，而1512號(hào)維度的持續(xù)出現(xiàn)暗示這是圖token注入后新涌現(xiàn)出來(lái)的現(xiàn)象，而不僅僅是語(yǔ)言模型底層特性的簡(jiǎn)單繼承。

**三、它們總是出現(xiàn)在隊(duì)伍的最前面**

發(fā)現(xiàn)了這些異常激活的圖token之后，研究團(tuán)隊(duì)接著追問(wèn)：這些"噪聲制造者"在圖token序列中是隨機(jī)分布的，還是有規(guī)律可循？

答案非常清晰：它們幾乎總是聚集在圖token序列的最前面。對(duì)于TEA-GLM來(lái)說(shuō)，5個(gè)圖token中，沉沒(méi)token幾乎總是出現(xiàn)在位置0和位置1。對(duì)于LLaGA來(lái)說(shuō)，雖然它的圖token序列長(zhǎng)得多（節(jié)點(diǎn)分類(lèi)任務(wù)有111個(gè)，鏈接預(yù)測(cè)任務(wù)有222個(gè)），但沉沒(méi)token的頻率在靠近序列起始位置時(shí)也明顯更高。

更有意思的是，在LLaGA的設(shè)計(jì)中，不同位置的圖token有明確的"身份"：位置0是被分析的中心節(jié)點(diǎn)，后面的位置依次是它的一階鄰居、二階鄰居，如果鄰居數(shù)量不夠，會(huì)用特殊的[PAD]（填充）符號(hào)補(bǔ)位。研究者仔細(xì)檢查后發(fā)現(xiàn)，激活值最高的前兩個(gè)沉沒(méi)token，在所有數(shù)據(jù)集和所有任務(wù)上，幾乎清一色都是[PAD]符號(hào)——也就是那些沒(méi)有實(shí)際內(nèi)容的占位符！而代表真正中心節(jié)點(diǎn)的位置0的token，從未被識(shí)別為沉沒(méi)token。

這個(gè)發(fā)現(xiàn)第一次在直覺(jué)層面敲響了警鐘：模型內(nèi)部最"吵鬧"的token，居然是那些本應(yīng)什么都不包含的占位符。這就像一場(chǎng)會(huì)議上，真正有實(shí)質(zhì)內(nèi)容的發(fā)言人反而沉默，而會(huì)議室里的空椅子在大聲喧嘩。

**四、"吵鬧"不等于"重要"：注意力并不追隨激活值**

發(fā)現(xiàn)了圖沉沒(méi)token在激活層面的異常之后，研究團(tuán)隊(duì)開(kāi)始追問(wèn)下一個(gè)問(wèn)題：既然這些token在模型內(nèi)部如此"高調(diào)"，其他token在處理信息時(shí)會(huì)不會(huì)把大量注意力都集中在它們身上？畢竟在傳統(tǒng)的注意力沉沒(méi)現(xiàn)象中，高激活往往與高注意力相伴而生。

研究者繪制了詳細(xì)的注意力熱力圖，把模型每一層的注意力權(quán)重都可視化出來(lái)，橫軸是圖token的位置，縱軸是提問(wèn)的文字token位置（或者模型層數(shù)），顏色越亮代表注意力越高。

TEA-GLM的結(jié)果非常直接地打破了"高激活=高注意力"的預(yù)期。沉沒(méi)token主要集中在位置0和1，但熱力圖顯示，模型的注意力權(quán)重在后面的位置（2、3、4號(hào)）往往更高，特別是在模型較低和中間的層中。換句話說(shuō)，沉沒(méi)token很"響"，但模型并沒(méi)有特別"聽(tīng)"它們的。

LLaGA的情況更加微妙。熱力圖中出現(xiàn)了若干豎向的亮條，說(shuō)明某些固定位置的圖token持續(xù)從文字token那里獲得注意力，且這種模式在不同層之間相當(dāng)穩(wěn)定。這些亮條的位置與沉沒(méi)token區(qū)域有部分重疊，但并不完全吻合，而且這些沉沒(méi)位置的注意力并不明顯高于非沉沒(méi)位置。更重要的是，LLaGA中激活值最高的沉沒(méi)token往往是[PAD]占位符，這些固定注意力通道更可能只是模型對(duì)填充符號(hào)的慣性響應(yīng)，而非對(duì)有意義圖結(jié)構(gòu)的關(guān)注。

從全局來(lái)看，兩個(gè)模型都指向同一個(gè)結(jié)論：圖沉沒(méi)token在激活層面是"異常響亮"的，但這種響亮并不會(huì)自動(dòng)轉(zhuǎn)化為注意力上的主導(dǎo)地位。這種現(xiàn)象與麻省理工學(xué)院等機(jī)構(gòu)最新對(duì)純文字大語(yǔ)言模型的研究相吻合——那些研究也發(fā)現(xiàn)激活尖峰和注意力沉沒(méi)是兩種相關(guān)但不嚴(yán)格綁定的機(jī)制。

**五、切除實(shí)驗(yàn)：拔掉"噪聲制造者"，模型照樣工作**

到目前為止，研究發(fā)現(xiàn)了圖沉沒(méi)token激活異常卻不一定搶占注意力的矛盾。接下來(lái)要做的，是更直接的功能性檢驗(yàn)：如果把這些被認(rèn)為最顯眼的token直接從序列中刪掉，模型的表現(xiàn)會(huì)大幅下降嗎？

研究團(tuán)隊(duì)設(shè)計(jì)了三種干預(yù)實(shí)驗(yàn)。第一種叫"切除沉沒(méi)token"，對(duì)每個(gè)測(cè)試樣本找出激活值最高的兩個(gè)沉沒(méi)token，把它們從圖token序列中刪去。第二種叫"切除非沉沒(méi)token"，作為對(duì)照，從非沉沒(méi)位置隨機(jī)選兩個(gè)token刪去（對(duì)15個(gè)隨機(jī)種子取平均，以減少隨機(jī)性的干擾）。第三種叫"位置互換"，把兩個(gè)沉沒(méi)token與兩個(gè)隨機(jī)選出的非沉沒(méi)token互換位置，但不刪除任何token（對(duì)5個(gè)隨機(jī)種子取平均）。

節(jié)點(diǎn)分類(lèi)任務(wù)的結(jié)果相當(dāng)有沖擊力。以LLaGA在Cora數(shù)據(jù)集上的表現(xiàn)為例：基線準(zhǔn)確率為88.40%，切除頂部?jī)蓚€(gè)沉沒(méi)token后是88.00%，幾乎沒(méi)有變化；而切除隨機(jī)非沉沒(méi)token后，準(zhǔn)確率平均跌至80.48%，降幅顯著。同樣的模式在Arxiv和PubMed上也成立。TEA-GLM的結(jié)果更為極端：在Arxiv上，切除沉沒(méi)token完全沒(méi)有影響準(zhǔn)確率（都是56.67%），而切除非沉沒(méi)token平均下降到44.40%。

位置互換實(shí)驗(yàn)也指向相同結(jié)論：把沉沒(méi)token和非沉沒(méi)token換個(gè)位置，性能幾乎不變，說(shuō)明沉沒(méi)token并沒(méi)有攜帶與其位置高度綁定的關(guān)鍵結(jié)構(gòu)信息。

針對(duì)LLaGA，研究團(tuán)隊(duì)還額外測(cè)試了把所有沉沒(méi)token移到序列最前面的情況（因?yàn)長(zhǎng)LaGA的模板依賴位置來(lái)編碼拓?fù)潢P(guān)系，這種移動(dòng)相當(dāng)于打亂了整個(gè)圖的鄰居結(jié)構(gòu)）。結(jié)果依然沒(méi)有顯著的性能變化，進(jìn)一步說(shuō)明這些沉沒(méi)token并非可靠的圖結(jié)構(gòu)摘要或信息路由節(jié)點(diǎn)。

**六、注意力與空洞：稀疏的圖結(jié)構(gòu)反而催生更強(qiáng)的沉沒(méi)**

研究團(tuán)隊(duì)還發(fā)現(xiàn)了一個(gè)頗為精妙的關(guān)聯(lián)現(xiàn)象，專門(mén)針對(duì)LLaGA展開(kāi)分析。

LLaGA在構(gòu)建圖token序列時(shí)，如果某個(gè)節(jié)點(diǎn)的鄰居數(shù)量少于預(yù)設(shè)的budget，會(huì)用[PAD]符號(hào)填充空缺。研究者想知道：當(dāng)一個(gè)樣本的圖token序列中，真實(shí)節(jié)點(diǎn)內(nèi)容越少（填充符越多），模型會(huì)怎么應(yīng)對(duì)？

統(tǒng)計(jì)結(jié)果顯示了一條非常清晰的負(fù)相關(guān)曲線：圖token序列中非填充token的比例越低（也就是真實(shí)圖內(nèi)容越少），模型分配給頂部?jī)蓚€(gè)沉沒(méi)token的平均注意力權(quán)重就越高；反之，當(dāng)真實(shí)圖token越豐富，這兩個(gè)沉沒(méi)token獲得的注意力就越少。因?yàn)轫敳績(jī)蓚€(gè)沉沒(méi)token始終是[PAD]占位符，這個(gè)現(xiàn)象可以解讀為：當(dāng)圖結(jié)構(gòu)稀疏、真實(shí)內(nèi)容不足時(shí)，模型沒(méi)有更好的信息來(lái)源，注意力便流向了無(wú)意義的填充位置。這是一種在信息匱乏時(shí)的無(wú)奈之舉，而非主動(dòng)的語(yǔ)義識(shí)別行為。

**七、切除之后，沉沒(méi)會(huì)復(fù)活嗎？**

一個(gè)自然的追問(wèn)是：把原來(lái)的沉沒(méi)token刪掉之后，會(huì)不會(huì)有其他token"頂上來(lái)"承擔(dān)沉沒(méi)角色？如果沉沒(méi)行為是模型的一種內(nèi)在需求，那么換一批token可能也會(huì)再次出現(xiàn)類(lèi)似現(xiàn)象。

研究者分別檢測(cè)了切除所有沉沒(méi)token前后的沉沒(méi)位置分布。LLaGA中，切除后確實(shí)重新出現(xiàn)了滿足沉沒(méi)標(biāo)準(zhǔn)的token，但它們的位置分布發(fā)生了明顯變化：不再集中在序列前端，而是分散到了整個(gè)圖token序列的各個(gè)位置。這說(shuō)明LLaGA的高激活行為是一種持續(xù)存在的系統(tǒng)特性，切除原有沉沒(méi)token只是讓這種行為重新分配，而非消除。

TEA-GLM則呈現(xiàn)完全相反的模式：切除原有沉沒(méi)token之后，剩余圖token的激活量整體下降，很少有token再次觸發(fā)沉沒(méi)判定閾值。這說(shuō)明TEA-GLM的沉沒(méi)行為集中在少數(shù)幾個(gè)固定的早期位置，一旦這些位置被清除，整個(gè)圖token塊的激活模式就歸于平靜。但結(jié)合前面切除實(shí)驗(yàn)幾乎不影響性能的結(jié)果，這種平靜更可能意味著這些沉沒(méi)token本來(lái)就是激活層面的人工產(chǎn)物，與實(shí)際的圖語(yǔ)義處理關(guān)系不大。

**八、解碼圖token的內(nèi)心獨(dú)白：詞匯透鏡實(shí)驗(yàn)**

最后，研究團(tuán)隊(duì)做了一個(gè)最具直覺(jué)感的實(shí)驗(yàn)——用"logit lens"（詞匯透鏡）技術(shù)來(lái)"窺視"圖token在模型內(nèi)部每一層的想法。

這個(gè)技術(shù)的原理可以這樣理解：大語(yǔ)言模型的最后一步是把內(nèi)部狀態(tài)轉(zhuǎn)換成詞匯表上的概率分布，然后選概率最高的詞輸出。詞匯透鏡的做法是，不等模型處理完全部層數(shù)，而是在每一個(gè)中間層就做這樣的詞匯解碼，看看模型"此時(shí)此刻在想什么詞"。這有點(diǎn)像在烹飪過(guò)程中每隔幾分鐘就嘗一口鍋里的湯，觀察味道的演變。

研究者專門(mén)對(duì)TEA-GLM進(jìn)行了這項(xiàng)分析，因?yàn)樗膱Dtoken序列固定為5個(gè)，位置比較容易跨樣本比較。他們記錄了每個(gè)圖token位置在每一層被解碼為哪個(gè)詞最頻繁，以及這個(gè)詞的平均概率是多少。

結(jié)果令人深思。在整個(gè)序列的大部分位置和大部分層次上，解碼出來(lái)的主要是一些碎片化的詞根、標(biāo)點(diǎn)符號(hào)、或者毫無(wú)意義的字節(jié)序列，整體概率也偏低，說(shuō)明這些圖token的隱藏狀態(tài)沒(méi)有與詞匯表產(chǎn)生清晰的對(duì)應(yīng)關(guān)系。

然而，有一個(gè)穩(wěn)定的規(guī)律浮現(xiàn)出來(lái)：在沉沒(méi)token所在的位置g0和g1，從大約第20層開(kāi)始，最頻繁解碼出的詞是"paper"（論文）。這個(gè)現(xiàn)象在Cora、Arxiv和PubMed三個(gè)數(shù)據(jù)集上都有出現(xiàn)。TEA-GLM是在Arxiv上預(yù)訓(xùn)練的，然后零樣本遷移到Cora和PubMed上，"paper"這個(gè)詞的反復(fù)出現(xiàn)說(shuō)明這兩個(gè)沉沒(méi)token位置保留的是來(lái)自預(yù)訓(xùn)練時(shí)引用網(wǎng)絡(luò)領(lǐng)域的寬泛印象，而不是當(dāng)前任務(wù)中具體圖結(jié)構(gòu)的信息。它們"記住"的不是"這個(gè)節(jié)點(diǎn)的鄰居關(guān)系是什么"，而只是"我們大概在討論學(xué)術(shù)論文這個(gè)領(lǐng)域"。

這是對(duì)整個(gè)研究結(jié)論最直觀的詮釋：圖沉沒(méi)token在激活層面非常顯眼，但它們內(nèi)部攜帶的只是模糊的領(lǐng)域級(jí)別背景知識(shí)，而不是模型真正需要用來(lái)做分類(lèi)和預(yù)測(cè)的拓?fù)浣Y(jié)構(gòu)信息。

**九、這一切說(shuō)明了什么：圖結(jié)構(gòu)翻譯還沒(méi)做到位**

把所有發(fā)現(xiàn)串聯(lián)起來(lái)，這項(xiàng)研究揭示的是一個(gè)清晰的系統(tǒng)性問(wèn)題：當(dāng)前的圖語(yǔ)言模型在把圖結(jié)構(gòu)翻譯成token序列之后，并沒(méi)有讓大語(yǔ)言模型真正"吃透"這些結(jié)構(gòu)信息。模型內(nèi)部確實(shí)出現(xiàn)了響應(yīng)圖token的活躍信號(hào)，但這些信號(hào)更像是模型在應(yīng)對(duì)一種它不太熟悉的輸入格式時(shí)產(chǎn)生的適應(yīng)性噪聲，而非真正的拓?fù)渫评砟芰Α?/p>

具體來(lái)說(shuō)，圖沉沒(méi)token集中在序列前端、往往是填充符號(hào)、激活值異常高、卻不是注意力的主要目標(biāo)、也不是預(yù)測(cè)性能的關(guān)鍵載體、解碼后只能讀到模糊的領(lǐng)域詞匯——這一系列現(xiàn)象共同描繪了一幅令人擔(dān)憂的圖景：激活層面的顯著性與圖語(yǔ)義的實(shí)際有用性之間存在嚴(yán)重脫節(jié)。

研究者把這種現(xiàn)象概括為"激活顯著性與圖語(yǔ)義效用的解耦"。通俗地說(shuō)，就是"叫得最響的狗不一定是最管用的那只"。

這個(gè)發(fā)現(xiàn)對(duì)整個(gè)圖語(yǔ)言模型領(lǐng)域有重要的方向性意義。它說(shuō)明僅僅把圖翻譯成token扔給大語(yǔ)言模型是不夠的，如何設(shè)計(jì)圖token的構(gòu)建方式、如何安排它們?cè)谛蛄兄械奈恢谩⑷绾斡?xùn)練模型真正對(duì)齊圖結(jié)構(gòu)與文字語(yǔ)義——這三個(gè)方向都有大量工作尚待完成。研究者也坦率地指出，本研究只分析了LLaGA和TEA-GLM兩種架構(gòu)，其他設(shè)計(jì)方案可能展現(xiàn)出不同的行為模式，未來(lái)的研究需要更系統(tǒng)地探索整個(gè)設(shè)計(jì)空間。

說(shuō)到底，這項(xiàng)研究做了一件很重要的事：它不是在夸圖語(yǔ)言模型有多好，而是嚴(yán)肅地追問(wèn)了一句"你真的懂圖嗎"。當(dāng)模型回答了很多問(wèn)題、在評(píng)測(cè)基準(zhǔn)上表現(xiàn)優(yōu)秀，我們往往會(huì)以為它已經(jīng)理解了輸入的結(jié)構(gòu)信息。但弗吉尼亞大學(xué)與Capital One的研究團(tuán)隊(duì)用解剖刀打開(kāi)了模型的內(nèi)部，發(fā)現(xiàn)里面最顯眼的那些信號(hào)，其實(shí)只是一些沒(méi)什么用的"響動(dòng)"。這不是對(duì)這些模型的否定，而是對(duì)整個(gè)領(lǐng)域的一次清醒提醒：評(píng)測(cè)分?jǐn)?shù)不等于理解深度，外在的高性能背后可能隱藏著我們還沒(méi)發(fā)現(xiàn)的短板。

對(duì)于關(guān)心AI技術(shù)走向的讀者來(lái)說(shuō)，這意味著下一代更可靠的圖語(yǔ)言模型，需要從內(nèi)部機(jī)制上做根本性改進(jìn)，而不僅僅是堆更多數(shù)據(jù)或更大模型。感興趣深入探索的讀者，可以通過(guò)arXiv編號(hào)2606.03712找到這篇完整論文。

Q&A

Q1：圖語(yǔ)言模型中的"圖沉沒(méi)token"是什么意思？

A：圖沉沒(méi)token是指在圖語(yǔ)言模型處理圖結(jié)構(gòu)數(shù)據(jù)時(shí)，某些圖token的隱藏狀態(tài)在特定的少數(shù)維度上產(chǎn)生異常大的激活值，從內(nèi)部來(lái)看非常"顯眼"。研究發(fā)現(xiàn)這些token往往出現(xiàn)在序列前端，甚至常常是沒(méi)有實(shí)際內(nèi)容的填充符號(hào)，但它們并不是模型真正用來(lái)做預(yù)測(cè)的關(guān)鍵信息來(lái)源。

Q2：切除圖沉沒(méi)token為什么對(duì)模型性能影響不大？

A：因?yàn)閳D沉沒(méi)token攜帶的主要是模糊的領(lǐng)域背景信號(hào)，而非具體的圖拓?fù)浣Y(jié)構(gòu)信息。實(shí)驗(yàn)顯示，刪掉激活值最高的兩個(gè)沉沒(méi)token后，模型準(zhǔn)確率幾乎不變；反而隨機(jī)刪掉普通的非沉沒(méi)token，性能下降更明顯。這說(shuō)明模型的實(shí)際預(yù)測(cè)能力依賴于那些看起來(lái)"不顯眼"的普通圖token。

Q3：詞匯透鏡實(shí)驗(yàn)在TEA-GLM上發(fā)現(xiàn)了什么？

A：詞匯透鏡實(shí)驗(yàn)發(fā)現(xiàn)，TEA-GLM的沉沒(méi)token位置（g0和g1）在模型較深的層次（約第20層之后）頻繁解碼出"paper"這個(gè)詞。由于該模型在Arxiv上預(yù)訓(xùn)練后零樣本遷移到其他數(shù)據(jù)集，這說(shuō)明沉沒(méi)token保留的只是引用網(wǎng)絡(luò)領(lǐng)域的寬泛印象，而非當(dāng)前任務(wù)需要的具體圖結(jié)構(gòu)信息，印證了激活顯著性與圖語(yǔ)義效用之間存在根本性脫節(jié)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.