无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

弗吉尼亞大學(xué)與Capital One揭開(kāi)"圖語(yǔ)言模型"的隱藏bug

0
分享至


這項(xiàng)由弗吉尼亞大學(xué)與Capital One聯(lián)合開(kāi)展的研究,于2026年6月以預(yù)印本形式發(fā)布,論文編號(hào)為arXiv:2606.03712,有興趣深入了解的讀者可通過(guò)該編號(hào)查詢完整論文。

**一個(gè)看似理所當(dāng)然的假設(shè),可能從一開(kāi)始就是錯(cuò)的**

近年來(lái),大語(yǔ)言模型(比如大家熟悉的ChatGPT背后的那類(lèi)技術(shù))已經(jīng)不滿足于只處理文字了。研究者們開(kāi)始嘗試讓它們"讀懂"圖結(jié)構(gòu)數(shù)據(jù)——比如社交網(wǎng)絡(luò)里誰(shuí)認(rèn)識(shí)誰(shuí)、論文引用關(guān)系中誰(shuí)引用了誰(shuí)、分子結(jié)構(gòu)中哪個(gè)原子連著哪個(gè)原子。于是,一種叫做"圖語(yǔ)言模型"(Graph Language Models,GLMs)的新技術(shù)應(yīng)運(yùn)而生。

這種技術(shù)的核心思路聽(tīng)起來(lái)很聰明:把復(fù)雜的圖結(jié)構(gòu)"翻譯"成一串文字符號(hào)(專業(yè)上叫"圖token"),然后喂給大語(yǔ)言模型處理。就像把一張地圖描述成一段文字,然后交給一個(gè)只認(rèn)識(shí)文字的人來(lái)理解。但弗吉尼亞大學(xué)和Capital One的研究團(tuán)隊(duì)心里有一個(gè)疑問(wèn):這個(gè)翻譯過(guò)程真的靠譜嗎?大語(yǔ)言模型在處理這些"翻譯來(lái)的圖信息"時(shí),內(nèi)部到底發(fā)生了什么?

事實(shí)證明,答案相當(dāng)令人意外——這些模型內(nèi)部出現(xiàn)了一種被研究者稱為"圖沉沒(méi)現(xiàn)象"的奇特行為,而這個(gè)現(xiàn)象直接揭示了當(dāng)前圖語(yǔ)言模型的一個(gè)深層缺陷。

**一、什么是"注意力沉沒(méi)",為什么圖模型也會(huì)中招**

在正式介紹研究發(fā)現(xiàn)之前,需要先聊一個(gè)背景概念,理解它會(huì)讓后面的一切豁然開(kāi)朗。

大語(yǔ)言模型在處理一段文字時(shí),會(huì)用一種叫做"注意力機(jī)制"的方式來(lái)判斷哪些詞對(duì)當(dāng)前理解最重要。可以把它比作一個(gè)課堂里的學(xué)生,老師說(shuō)話時(shí),學(xué)生會(huì)把更多注意力放在關(guān)鍵詞上,而忽略無(wú)關(guān)的詞。然而研究者發(fā)現(xiàn),在實(shí)際運(yùn)行中,這些模型會(huì)養(yǎng)成一個(gè)奇怪的習(xí)慣:它們會(huì)把大量"注意力"集中投向某些特定的詞,而這些詞本身往往沒(méi)什么實(shí)際意義。這就像那個(gè)學(xué)生突然對(duì)黑板角落里一個(gè)不重要的標(biāo)點(diǎn)符號(hào)格外著迷,而忽略了老師正在講的重要內(nèi)容。這種現(xiàn)象被稱為"注意力沉沒(méi)"(Attention Sink)——某些詞像黑洞一樣吸走了大量注意力,卻不傳遞真正有用的信息。

這種現(xiàn)象在純文字模型和視覺(jué)語(yǔ)言模型中早已被發(fā)現(xiàn)和記錄。研究團(tuán)隊(duì)的核心問(wèn)題是:當(dāng)圖語(yǔ)言模型把圖結(jié)構(gòu)翻譯成token并喂給大語(yǔ)言模型時(shí),會(huì)不會(huì)出現(xiàn)類(lèi)似甚至更嚴(yán)重的問(wèn)題?

研究團(tuán)隊(duì)選擇了兩個(gè)具有代表性的圖語(yǔ)言模型作為研究對(duì)象。第一個(gè)叫LLaGA,它的工作方式是把圖中的每個(gè)節(jié)點(diǎn)和它的鄰居關(guān)系原樣排列成一串token,就像把一棵家譜樹(shù)按順序?qū)懗梢涣忻帧5诙€(gè)叫TEA-GLM,它先用一個(gè)專門(mén)處理圖的神經(jīng)網(wǎng)絡(luò)(GNN)把整個(gè)圖的結(jié)構(gòu)壓縮提煉,然后把精華變成固定數(shù)量(5個(gè))的特殊token,再交給大語(yǔ)言模型處理。這兩種模式代表了當(dāng)前圖語(yǔ)言模型的兩種主流設(shè)計(jì)思路,分別在三個(gè)學(xué)術(shù)數(shù)據(jù)集上進(jìn)行了測(cè)試:Cora(引用網(wǎng)絡(luò))、Arxiv(論文數(shù)據(jù)庫(kù))和PubMed(生物醫(yī)學(xué)文獻(xiàn)庫(kù)),涵蓋了節(jié)點(diǎn)分類(lèi)和鏈接預(yù)測(cè)兩類(lèi)典型任務(wù)。

**二、激活值異常:模型內(nèi)部的"噪聲制造者"**

研究團(tuán)隊(duì)首先做了一件事:直接"打開(kāi)"這些模型,看看圖token在模型內(nèi)部的神經(jīng)元激活情況。可以把神經(jīng)網(wǎng)絡(luò)想象成一個(gè)有成千上萬(wàn)個(gè)開(kāi)關(guān)的控制面板,每個(gè)開(kāi)關(guān)有自己的亮度(激活值)。正常情況下,大多數(shù)開(kāi)關(guān)應(yīng)該保持在一個(gè)適中的亮度范圍內(nèi),隨著處理內(nèi)容的不同而溫和地變化。

然而,研究者發(fā)現(xiàn)了一個(gè)異常現(xiàn)象:在所有4096個(gè)"開(kāi)關(guān)"(隱藏維度)中,絕大多數(shù)都保持在很低的亮度,但有極少數(shù)幾個(gè)開(kāi)關(guān)會(huì)突然亮得異常刺眼。在LLaGA中,第1512號(hào)和第2533號(hào)維度會(huì)出現(xiàn)這種巨大的激活尖峰;在TEA-GLM中,第1512號(hào)維度幾乎在所有數(shù)據(jù)集和所有任務(wù)上都會(huì)出現(xiàn)這種異常高亮。這個(gè)模式跨越數(shù)據(jù)集、跨越任務(wù),非常穩(wěn)定可重復(fù)。

這些產(chǎn)生異常激活的圖token,就是研究團(tuán)隊(duì)定義的"圖沉沒(méi)token"(Graph Sink Tokens)。研究者用一個(gè)數(shù)學(xué)公式來(lái)識(shí)別它們:對(duì)每個(gè)圖token的隱藏狀態(tài)做規(guī)范化處理后,取其在已知"沉沒(méi)維度"上的最大絕對(duì)值,如果這個(gè)值超過(guò)預(yù)設(shè)閾值(設(shè)為15.0),就把它標(biāo)記為圖沉沒(méi)token。

值得注意的是,第1512號(hào)維度的重復(fù)出現(xiàn)有些耐人尋味。在純文字版的LLaMA模型中,已知的沉沒(méi)維度通常是2533號(hào),而1512號(hào)維度的持續(xù)出現(xiàn)暗示這是圖token注入后新涌現(xiàn)出來(lái)的現(xiàn)象,而不僅僅是語(yǔ)言模型底層特性的簡(jiǎn)單繼承。

**三、它們總是出現(xiàn)在隊(duì)伍的最前面**

發(fā)現(xiàn)了這些異常激活的圖token之后,研究團(tuán)隊(duì)接著追問(wèn):這些"噪聲制造者"在圖token序列中是隨機(jī)分布的,還是有規(guī)律可循?

答案非常清晰:它們幾乎總是聚集在圖token序列的最前面。對(duì)于TEA-GLM來(lái)說(shuō),5個(gè)圖token中,沉沒(méi)token幾乎總是出現(xiàn)在位置0和位置1。對(duì)于LLaGA來(lái)說(shuō),雖然它的圖token序列長(zhǎng)得多(節(jié)點(diǎn)分類(lèi)任務(wù)有111個(gè),鏈接預(yù)測(cè)任務(wù)有222個(gè)),但沉沒(méi)token的頻率在靠近序列起始位置時(shí)也明顯更高。

更有意思的是,在LLaGA的設(shè)計(jì)中,不同位置的圖token有明確的"身份":位置0是被分析的中心節(jié)點(diǎn),后面的位置依次是它的一階鄰居、二階鄰居,如果鄰居數(shù)量不夠,會(huì)用特殊的[PAD](填充)符號(hào)補(bǔ)位。研究者仔細(xì)檢查后發(fā)現(xiàn),激活值最高的前兩個(gè)沉沒(méi)token,在所有數(shù)據(jù)集和所有任務(wù)上,幾乎清一色都是[PAD]符號(hào)——也就是那些沒(méi)有實(shí)際內(nèi)容的占位符!而代表真正中心節(jié)點(diǎn)的位置0的token,從未被識(shí)別為沉沒(méi)token。

這個(gè)發(fā)現(xiàn)第一次在直覺(jué)層面敲響了警鐘:模型內(nèi)部最"吵鬧"的token,居然是那些本應(yīng)什么都不包含的占位符。這就像一場(chǎng)會(huì)議上,真正有實(shí)質(zhì)內(nèi)容的發(fā)言人反而沉默,而會(huì)議室里的空椅子在大聲喧嘩。

**四、"吵鬧"不等于"重要":注意力并不追隨激活值**

發(fā)現(xiàn)了圖沉沒(méi)token在激活層面的異常之后,研究團(tuán)隊(duì)開(kāi)始追問(wèn)下一個(gè)問(wèn)題:既然這些token在模型內(nèi)部如此"高調(diào)",其他token在處理信息時(shí)會(huì)不會(huì)把大量注意力都集中在它們身上?畢竟在傳統(tǒng)的注意力沉沒(méi)現(xiàn)象中,高激活往往與高注意力相伴而生。

研究者繪制了詳細(xì)的注意力熱力圖,把模型每一層的注意力權(quán)重都可視化出來(lái),橫軸是圖token的位置,縱軸是提問(wèn)的文字token位置(或者模型層數(shù)),顏色越亮代表注意力越高。

TEA-GLM的結(jié)果非常直接地打破了"高激活=高注意力"的預(yù)期。沉沒(méi)token主要集中在位置0和1,但熱力圖顯示,模型的注意力權(quán)重在后面的位置(2、3、4號(hào))往往更高,特別是在模型較低和中間的層中。換句話說(shuō),沉沒(méi)token很"響",但模型并沒(méi)有特別"聽(tīng)"它們的。

LLaGA的情況更加微妙。熱力圖中出現(xiàn)了若干豎向的亮條,說(shuō)明某些固定位置的圖token持續(xù)從文字token那里獲得注意力,且這種模式在不同層之間相當(dāng)穩(wěn)定。這些亮條的位置與沉沒(méi)token區(qū)域有部分重疊,但并不完全吻合,而且這些沉沒(méi)位置的注意力并不明顯高于非沉沒(méi)位置。更重要的是,LLaGA中激活值最高的沉沒(méi)token往往是[PAD]占位符,這些固定注意力通道更可能只是模型對(duì)填充符號(hào)的慣性響應(yīng),而非對(duì)有意義圖結(jié)構(gòu)的關(guān)注。

從全局來(lái)看,兩個(gè)模型都指向同一個(gè)結(jié)論:圖沉沒(méi)token在激活層面是"異常響亮"的,但這種響亮并不會(huì)自動(dòng)轉(zhuǎn)化為注意力上的主導(dǎo)地位。這種現(xiàn)象與麻省理工學(xué)院等機(jī)構(gòu)最新對(duì)純文字大語(yǔ)言模型的研究相吻合——那些研究也發(fā)現(xiàn)激活尖峰和注意力沉沒(méi)是兩種相關(guān)但不嚴(yán)格綁定的機(jī)制。

**五、切除實(shí)驗(yàn):拔掉"噪聲制造者",模型照樣工作**

到目前為止,研究發(fā)現(xiàn)了圖沉沒(méi)token激活異常卻不一定搶占注意力的矛盾。接下來(lái)要做的,是更直接的功能性檢驗(yàn):如果把這些被認(rèn)為最顯眼的token直接從序列中刪掉,模型的表現(xiàn)會(huì)大幅下降嗎?

研究團(tuán)隊(duì)設(shè)計(jì)了三種干預(yù)實(shí)驗(yàn)。第一種叫"切除沉沒(méi)token",對(duì)每個(gè)測(cè)試樣本找出激活值最高的兩個(gè)沉沒(méi)token,把它們從圖token序列中刪去。第二種叫"切除非沉沒(méi)token",作為對(duì)照,從非沉沒(méi)位置隨機(jī)選兩個(gè)token刪去(對(duì)15個(gè)隨機(jī)種子取平均,以減少隨機(jī)性的干擾)。第三種叫"位置互換",把兩個(gè)沉沒(méi)token與兩個(gè)隨機(jī)選出的非沉沒(méi)token互換位置,但不刪除任何token(對(duì)5個(gè)隨機(jī)種子取平均)。

節(jié)點(diǎn)分類(lèi)任務(wù)的結(jié)果相當(dāng)有沖擊力。以LLaGA在Cora數(shù)據(jù)集上的表現(xiàn)為例:基線準(zhǔn)確率為88.40%,切除頂部?jī)蓚€(gè)沉沒(méi)token后是88.00%,幾乎沒(méi)有變化;而切除隨機(jī)非沉沒(méi)token后,準(zhǔn)確率平均跌至80.48%,降幅顯著。同樣的模式在Arxiv和PubMed上也成立。TEA-GLM的結(jié)果更為極端:在Arxiv上,切除沉沒(méi)token完全沒(méi)有影響準(zhǔn)確率(都是56.67%),而切除非沉沒(méi)token平均下降到44.40%。

位置互換實(shí)驗(yàn)也指向相同結(jié)論:把沉沒(méi)token和非沉沒(méi)token換個(gè)位置,性能幾乎不變,說(shuō)明沉沒(méi)token并沒(méi)有攜帶與其位置高度綁定的關(guān)鍵結(jié)構(gòu)信息。

針對(duì)LLaGA,研究團(tuán)隊(duì)還額外測(cè)試了把所有沉沒(méi)token移到序列最前面的情況(因?yàn)長(zhǎng)LaGA的模板依賴位置來(lái)編碼拓?fù)潢P(guān)系,這種移動(dòng)相當(dāng)于打亂了整個(gè)圖的鄰居結(jié)構(gòu))。結(jié)果依然沒(méi)有顯著的性能變化,進(jìn)一步說(shuō)明這些沉沒(méi)token并非可靠的圖結(jié)構(gòu)摘要或信息路由節(jié)點(diǎn)。

**六、注意力與空洞:稀疏的圖結(jié)構(gòu)反而催生更強(qiáng)的沉沒(méi)**

研究團(tuán)隊(duì)還發(fā)現(xiàn)了一個(gè)頗為精妙的關(guān)聯(lián)現(xiàn)象,專門(mén)針對(duì)LLaGA展開(kāi)分析。

LLaGA在構(gòu)建圖token序列時(shí),如果某個(gè)節(jié)點(diǎn)的鄰居數(shù)量少于預(yù)設(shè)的budget,會(huì)用[PAD]符號(hào)填充空缺。研究者想知道:當(dāng)一個(gè)樣本的圖token序列中,真實(shí)節(jié)點(diǎn)內(nèi)容越少(填充符越多),模型會(huì)怎么應(yīng)對(duì)?

統(tǒng)計(jì)結(jié)果顯示了一條非常清晰的負(fù)相關(guān)曲線:圖token序列中非填充token的比例越低(也就是真實(shí)圖內(nèi)容越少),模型分配給頂部?jī)蓚€(gè)沉沒(méi)token的平均注意力權(quán)重就越高;反之,當(dāng)真實(shí)圖token越豐富,這兩個(gè)沉沒(méi)token獲得的注意力就越少。因?yàn)轫敳績(jī)蓚€(gè)沉沒(méi)token始終是[PAD]占位符,這個(gè)現(xiàn)象可以解讀為:當(dāng)圖結(jié)構(gòu)稀疏、真實(shí)內(nèi)容不足時(shí),模型沒(méi)有更好的信息來(lái)源,注意力便流向了無(wú)意義的填充位置。這是一種在信息匱乏時(shí)的無(wú)奈之舉,而非主動(dòng)的語(yǔ)義識(shí)別行為。

**七、切除之后,沉沒(méi)會(huì)復(fù)活嗎?**

一個(gè)自然的追問(wèn)是:把原來(lái)的沉沒(méi)token刪掉之后,會(huì)不會(huì)有其他token"頂上來(lái)"承擔(dān)沉沒(méi)角色?如果沉沒(méi)行為是模型的一種內(nèi)在需求,那么換一批token可能也會(huì)再次出現(xiàn)類(lèi)似現(xiàn)象。

研究者分別檢測(cè)了切除所有沉沒(méi)token前后的沉沒(méi)位置分布。LLaGA中,切除后確實(shí)重新出現(xiàn)了滿足沉沒(méi)標(biāo)準(zhǔn)的token,但它們的位置分布發(fā)生了明顯變化:不再集中在序列前端,而是分散到了整個(gè)圖token序列的各個(gè)位置。這說(shuō)明LLaGA的高激活行為是一種持續(xù)存在的系統(tǒng)特性,切除原有沉沒(méi)token只是讓這種行為重新分配,而非消除。

TEA-GLM則呈現(xiàn)完全相反的模式:切除原有沉沒(méi)token之后,剩余圖token的激活量整體下降,很少有token再次觸發(fā)沉沒(méi)判定閾值。這說(shuō)明TEA-GLM的沉沒(méi)行為集中在少數(shù)幾個(gè)固定的早期位置,一旦這些位置被清除,整個(gè)圖token塊的激活模式就歸于平靜。但結(jié)合前面切除實(shí)驗(yàn)幾乎不影響性能的結(jié)果,這種平靜更可能意味著這些沉沒(méi)token本來(lái)就是激活層面的人工產(chǎn)物,與實(shí)際的圖語(yǔ)義處理關(guān)系不大。

**八、解碼圖token的內(nèi)心獨(dú)白:詞匯透鏡實(shí)驗(yàn)**

最后,研究團(tuán)隊(duì)做了一個(gè)最具直覺(jué)感的實(shí)驗(yàn)——用"logit lens"(詞匯透鏡)技術(shù)來(lái)"窺視"圖token在模型內(nèi)部每一層的想法。

這個(gè)技術(shù)的原理可以這樣理解:大語(yǔ)言模型的最后一步是把內(nèi)部狀態(tài)轉(zhuǎn)換成詞匯表上的概率分布,然后選概率最高的詞輸出。詞匯透鏡的做法是,不等模型處理完全部層數(shù),而是在每一個(gè)中間層就做這樣的詞匯解碼,看看模型"此時(shí)此刻在想什么詞"。這有點(diǎn)像在烹飪過(guò)程中每隔幾分鐘就嘗一口鍋里的湯,觀察味道的演變。

研究者專門(mén)對(duì)TEA-GLM進(jìn)行了這項(xiàng)分析,因?yàn)樗膱Dtoken序列固定為5個(gè),位置比較容易跨樣本比較。他們記錄了每個(gè)圖token位置在每一層被解碼為哪個(gè)詞最頻繁,以及這個(gè)詞的平均概率是多少。

結(jié)果令人深思。在整個(gè)序列的大部分位置和大部分層次上,解碼出來(lái)的主要是一些碎片化的詞根、標(biāo)點(diǎn)符號(hào)、或者毫無(wú)意義的字節(jié)序列,整體概率也偏低,說(shuō)明這些圖token的隱藏狀態(tài)沒(méi)有與詞匯表產(chǎn)生清晰的對(duì)應(yīng)關(guān)系。

然而,有一個(gè)穩(wěn)定的規(guī)律浮現(xiàn)出來(lái):在沉沒(méi)token所在的位置g0和g1,從大約第20層開(kāi)始,最頻繁解碼出的詞是"paper"(論文)。這個(gè)現(xiàn)象在Cora、Arxiv和PubMed三個(gè)數(shù)據(jù)集上都有出現(xiàn)。TEA-GLM是在Arxiv上預(yù)訓(xùn)練的,然后零樣本遷移到Cora和PubMed上,"paper"這個(gè)詞的反復(fù)出現(xiàn)說(shuō)明這兩個(gè)沉沒(méi)token位置保留的是來(lái)自預(yù)訓(xùn)練時(shí)引用網(wǎng)絡(luò)領(lǐng)域的寬泛印象,而不是當(dāng)前任務(wù)中具體圖結(jié)構(gòu)的信息。它們"記住"的不是"這個(gè)節(jié)點(diǎn)的鄰居關(guān)系是什么",而只是"我們大概在討論學(xué)術(shù)論文這個(gè)領(lǐng)域"。

這是對(duì)整個(gè)研究結(jié)論最直觀的詮釋:圖沉沒(méi)token在激活層面非常顯眼,但它們內(nèi)部攜帶的只是模糊的領(lǐng)域級(jí)別背景知識(shí),而不是模型真正需要用來(lái)做分類(lèi)和預(yù)測(cè)的拓?fù)浣Y(jié)構(gòu)信息。

**九、這一切說(shuō)明了什么:圖結(jié)構(gòu)翻譯還沒(méi)做到位**

把所有發(fā)現(xiàn)串聯(lián)起來(lái),這項(xiàng)研究揭示的是一個(gè)清晰的系統(tǒng)性問(wèn)題:當(dāng)前的圖語(yǔ)言模型在把圖結(jié)構(gòu)翻譯成token序列之后,并沒(méi)有讓大語(yǔ)言模型真正"吃透"這些結(jié)構(gòu)信息。模型內(nèi)部確實(shí)出現(xiàn)了響應(yīng)圖token的活躍信號(hào),但這些信號(hào)更像是模型在應(yīng)對(duì)一種它不太熟悉的輸入格式時(shí)產(chǎn)生的適應(yīng)性噪聲,而非真正的拓?fù)渫评砟芰Α?/p>

具體來(lái)說(shuō),圖沉沒(méi)token集中在序列前端、往往是填充符號(hào)、激活值異常高、卻不是注意力的主要目標(biāo)、也不是預(yù)測(cè)性能的關(guān)鍵載體、解碼后只能讀到模糊的領(lǐng)域詞匯——這一系列現(xiàn)象共同描繪了一幅令人擔(dān)憂的圖景:激活層面的顯著性與圖語(yǔ)義的實(shí)際有用性之間存在嚴(yán)重脫節(jié)。

研究者把這種現(xiàn)象概括為"激活顯著性與圖語(yǔ)義效用的解耦"。通俗地說(shuō),就是"叫得最響的狗不一定是最管用的那只"。

這個(gè)發(fā)現(xiàn)對(duì)整個(gè)圖語(yǔ)言模型領(lǐng)域有重要的方向性意義。它說(shuō)明僅僅把圖翻譯成token扔給大語(yǔ)言模型是不夠的,如何設(shè)計(jì)圖token的構(gòu)建方式、如何安排它們?cè)谛蛄兄械奈恢谩⑷绾斡?xùn)練模型真正對(duì)齊圖結(jié)構(gòu)與文字語(yǔ)義——這三個(gè)方向都有大量工作尚待完成。研究者也坦率地指出,本研究只分析了LLaGA和TEA-GLM兩種架構(gòu),其他設(shè)計(jì)方案可能展現(xiàn)出不同的行為模式,未來(lái)的研究需要更系統(tǒng)地探索整個(gè)設(shè)計(jì)空間。

說(shuō)到底,這項(xiàng)研究做了一件很重要的事:它不是在夸圖語(yǔ)言模型有多好,而是嚴(yán)肅地追問(wèn)了一句"你真的懂圖嗎"。當(dāng)模型回答了很多問(wèn)題、在評(píng)測(cè)基準(zhǔn)上表現(xiàn)優(yōu)秀,我們往往會(huì)以為它已經(jīng)理解了輸入的結(jié)構(gòu)信息。但弗吉尼亞大學(xué)與Capital One的研究團(tuán)隊(duì)用解剖刀打開(kāi)了模型的內(nèi)部,發(fā)現(xiàn)里面最顯眼的那些信號(hào),其實(shí)只是一些沒(méi)什么用的"響動(dòng)"。這不是對(duì)這些模型的否定,而是對(duì)整個(gè)領(lǐng)域的一次清醒提醒:評(píng)測(cè)分?jǐn)?shù)不等于理解深度,外在的高性能背后可能隱藏著我們還沒(méi)發(fā)現(xiàn)的短板。

對(duì)于關(guān)心AI技術(shù)走向的讀者來(lái)說(shuō),這意味著下一代更可靠的圖語(yǔ)言模型,需要從內(nèi)部機(jī)制上做根本性改進(jìn),而不僅僅是堆更多數(shù)據(jù)或更大模型。感興趣深入探索的讀者,可以通過(guò)arXiv編號(hào)2606.03712找到這篇完整論文。

Q&A

Q1:圖語(yǔ)言模型中的"圖沉沒(méi)token"是什么意思?

A:圖沉沒(méi)token是指在圖語(yǔ)言模型處理圖結(jié)構(gòu)數(shù)據(jù)時(shí),某些圖token的隱藏狀態(tài)在特定的少數(shù)維度上產(chǎn)生異常大的激活值,從內(nèi)部來(lái)看非常"顯眼"。研究發(fā)現(xiàn)這些token往往出現(xiàn)在序列前端,甚至常常是沒(méi)有實(shí)際內(nèi)容的填充符號(hào),但它們并不是模型真正用來(lái)做預(yù)測(cè)的關(guān)鍵信息來(lái)源。

Q2:切除圖沉沒(méi)token為什么對(duì)模型性能影響不大?

A:因?yàn)閳D沉沒(méi)token攜帶的主要是模糊的領(lǐng)域背景信號(hào),而非具體的圖拓?fù)浣Y(jié)構(gòu)信息。實(shí)驗(yàn)顯示,刪掉激活值最高的兩個(gè)沉沒(méi)token后,模型準(zhǔn)確率幾乎不變;反而隨機(jī)刪掉普通的非沉沒(méi)token,性能下降更明顯。這說(shuō)明模型的實(shí)際預(yù)測(cè)能力依賴于那些看起來(lái)"不顯眼"的普通圖token。

Q3:詞匯透鏡實(shí)驗(yàn)在TEA-GLM上發(fā)現(xiàn)了什么?

A:詞匯透鏡實(shí)驗(yàn)發(fā)現(xiàn),TEA-GLM的沉沒(méi)token位置(g0和g1)在模型較深的層次(約第20層之后)頻繁解碼出"paper"這個(gè)詞。由于該模型在Arxiv上預(yù)訓(xùn)練后零樣本遷移到其他數(shù)據(jù)集,這說(shuō)明沉沒(méi)token保留的只是引用網(wǎng)絡(luò)領(lǐng)域的寬泛印象,而非當(dāng)前任務(wù)需要的具體圖結(jié)構(gòu)信息,印證了激活顯著性與圖語(yǔ)義效用之間存在根本性脫節(jié)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
美媒:紐約尼克斯隊(duì)獲得NBA總冠軍,球迷慶祝時(shí)引發(fā)騷亂

美媒:紐約尼克斯隊(duì)獲得NBA總冠軍,球迷慶祝時(shí)引發(fā)騷亂

環(huán)球網(wǎng)資訊
2026-06-14 18:18:23
馬刺今夏三大目標(biāo)!3個(gè)首輪換頂級(jí)鋒線,換走福克斯扶正哈珀?

馬刺今夏三大目標(biāo)!3個(gè)首輪換頂級(jí)鋒線,換走福克斯扶正哈珀?

劉哥談體育
2026-06-14 15:20:30
你是惡魔嗎?

你是惡魔嗎?

正經(jīng)的米飯
2026-06-12 15:22:23
新疆“火焰山”:歷史上燒了129年,損失超萬(wàn)億!撲滅后驚艷世人

新疆“火焰山”:歷史上燒了129年,損失超萬(wàn)億!撲滅后驚艷世人

瘋狂的小歷史
2026-06-14 11:57:28
澳媒:澳大利亞民眾紛紛抓拍中國(guó)朱雀二號(hào)火箭奇觀

澳媒:澳大利亞民眾紛紛抓拍中國(guó)朱雀二號(hào)火箭奇觀

環(huán)球網(wǎng)資訊
2026-06-12 07:14:17
我與父親斷絕關(guān)系10年,他去世我沒(méi)去他葬禮,三天后他戰(zhàn)友找上門(mén)

我與父親斷絕關(guān)系10年,他去世我沒(méi)去他葬禮,三天后他戰(zhàn)友找上門(mén)

千秋文化
2026-06-10 20:43:44
臺(tái)灣演員吐槽:在島內(nèi)看不到世界杯!大陸網(wǎng)友喊話

臺(tái)灣演員吐槽:在島內(nèi)看不到世界杯!大陸網(wǎng)友喊話

南方都市報(bào)
2026-06-14 13:51:25
畢業(yè)啦!谷愛(ài)凌曬斯坦福畢業(yè)照,氣質(zhì)身材完美并存

畢業(yè)啦!谷愛(ài)凌曬斯坦福畢業(yè)照,氣質(zhì)身材完美并存

東方不敗然多多
2026-06-14 14:17:21
張雪機(jī)車(chē)被冠軍推上牌桌

張雪機(jī)車(chē)被冠軍推上牌桌

鈦媒體APP
2026-06-14 09:38:18
被“全球拒簽”的印度人,盯上中國(guó),印人高喊:中國(guó)應(yīng)該接受我們

被“全球拒簽”的印度人,盯上中國(guó),印人高喊:中國(guó)應(yīng)該接受我們

錯(cuò)過(guò)美好
2026-06-14 09:58:47
南京印度游客灑紅節(jié)鬧劇:狂歡無(wú)邊界,包容絕非無(wú)底線!

南京印度游客灑紅節(jié)鬧劇:狂歡無(wú)邊界,包容絕非無(wú)底線!

行者聊官
2026-06-13 21:45:48
世界杯6月15日賽程:日本對(duì)決荷蘭,德國(guó)首戰(zhàn)頭號(hào)魚(yú)腩,CCTV5直播

世界杯6月15日賽程:日本對(duì)決荷蘭,德國(guó)首戰(zhàn)頭號(hào)魚(yú)腩,CCTV5直播

侃球熊弟
2026-06-14 14:10:07
長(zhǎng)鑫科技上市在即:撐起3萬(wàn)億產(chǎn)業(yè)鏈,券商險(xiǎn)資多路入局

長(zhǎng)鑫科技上市在即:撐起3萬(wàn)億產(chǎn)業(yè)鏈,券商險(xiǎn)資多路入局

第一財(cái)經(jīng)資訊
2026-06-14 17:33:11
他在SpaceX最危險(xiǎn)時(shí)刻借給馬斯克100萬(wàn)美元,如今可能收獲1300億美元

他在SpaceX最危險(xiǎn)時(shí)刻借給馬斯克100萬(wàn)美元,如今可能收獲1300億美元

NASA愛(ài)好者
2026-06-09 00:30:03
法拉利高管深夜開(kāi)懟:智界,你請(qǐng)的“首席設(shè)計(jì)師”到底是誰(shuí)?

法拉利高管深夜開(kāi)懟:智界,你請(qǐng)的“首席設(shè)計(jì)師”到底是誰(shuí)?

小南看車(chē)
2026-06-11 20:30:07
所有人都在問(wèn):到底怎么可以82勝?

所有人都在問(wèn):到底怎么可以82勝?

追星雷達(dá)站
2026-06-14 00:34:53
搬起石頭砸自己的腳,前國(guó)腳實(shí)名圍剿董路,沒(méi)曾想自己先被扒光

搬起石頭砸自己的腳,前國(guó)腳實(shí)名圍剿董路,沒(méi)曾想自己先被扒光

笑飲孤鴻非
2026-06-14 19:03:12
只因5歲女孩尿床,父親一腳踹死女兒,尸檢撕開(kāi)生父繼母惡毒真相

只因5歲女孩尿床,父親一腳踹死女兒,尸檢撕開(kāi)生父繼母惡毒真相

易玄
2026-06-14 10:34:18
越扒越驚心!你根本想象不到釋永信在少林寺的奢靡生活有多離譜?

越扒越驚心!你根本想象不到釋永信在少林寺的奢靡生活有多離譜?

清歡百味
2026-06-13 09:34:33
悲哀!高考女生兩天花光母親3個(gè)月工資2萬(wàn)元,質(zhì)問(wèn)“我錯(cuò)了嗎?”

悲哀!高考女生兩天花光母親3個(gè)月工資2萬(wàn)元,質(zhì)問(wèn)“我錯(cuò)了嗎?”

火山詩(shī)話
2026-06-12 11:46:38
2026-06-14 19:47:00
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
8771文章數(shù) 565關(guān)注度
往期回顧 全部

科技要聞

Anthropic最強(qiáng)模型被禁,傳亞馬遜通風(fēng)報(bào)信

頭條要聞

村民砍掉"孤獨(dú)樹(shù)":砍樹(shù)前一天跟紅裙女子發(fā)生沖突

頭條要聞

村民砍掉"孤獨(dú)樹(shù)":砍樹(shù)前一天跟紅裙女子發(fā)生沖突

體育要聞

8年8隊(duì)奪冠,鄧肯那句話,現(xiàn)在還給了馬刺

娛樂(lè)要聞

鄧超攜子觀戰(zhàn)NBA,等等帥氣十足

財(cái)經(jīng)要聞

金價(jià)跌至900元關(guān)口,大媽又來(lái)抄底了!

汽車(chē)要聞

綜合續(xù)航超1600km/零百加速4秒級(jí) 2027款星途ES預(yù)售18.99萬(wàn)起

態(tài)度原創(chuàng)

家居
親子
藝術(shù)
教育
房產(chǎn)

家居要聞

空間微調(diào) 移形換境

親子要聞

去小院看爺爺奶奶,一見(jiàn)面就親的不行,還得是大孫子隔輩親啊!

藝術(shù)要聞

Lori Putnam | 光感拉滿的印象風(fēng)景寫(xiě)生

教育要聞

高三生必看!四川省本科高校2026年招生章程要點(diǎn)匯總

房產(chǎn)要聞

海南最賺錢(qián)行業(yè)曝光!最快4年半,海口全款買(mǎi)三房!

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版