網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

東南大學(xué)耿新團(tuán)隊(duì)：模型不是不會(huì)做，而是被「擠掉了能力」丨CVPR 2026

2026-04-18 13:11:52　來(lái)源: AI科技評(píng)論

廣東舉報(bào)

分享至

ESM：阻斷子空間干擾，實(shí)現(xiàn)多任務(wù)能力穩(wěn)定共存。

作者丨鄭佳美

編輯丨岑峰

你可能遇到過(guò)這樣一種情況，一個(gè)模型原本只做一件事的時(shí)候表現(xiàn)很好，但一旦不斷往里面加新任務(wù)，它反而開始變差了。不是徹底失效，而是變得不穩(wěn)定，有些能力開始下降，有些結(jié)果開始波動(dòng)。問(wèn)題不在于模型不會(huì)，而在于它原本會(huì)的東西，被后來(lái)加入的任務(wù)“擠掉了一部分”。

這背后其實(shí)有一個(gè)很少被說(shuō)清楚的問(wèn)題。模型的能力并不是一塊一塊獨(dú)立放進(jìn)去的，而是共享同一套內(nèi)部表示空間。簡(jiǎn)單理解，就是所有任務(wù)都在“用同一塊地方存信息”。

當(dāng)任務(wù)變多時(shí)，它們不是并排存在，而是在爭(zhēng)這塊空間里最重要的那些位置。誰(shuí)占得多，誰(shuí)就更穩(wěn)定；誰(shuí)被擠掉，誰(shuí)的性能就下降。這就是為什么，多任務(wù)融合經(jīng)常不是越多越強(qiáng)，而是越多越亂。

現(xiàn)實(shí)中，這種問(wèn)題其實(shí)非常普遍。比如一個(gè)持續(xù)迭代的系統(tǒng)，不斷往里加新能力，每一次看起來(lái)只是“多做了一件事”，但實(shí)際上是在重新分配內(nèi)部的表示空間。如果沒(méi)有好的機(jī)制，新的能力往往會(huì)影響舊的能力，最后系統(tǒng)變成一個(gè)需要不斷修補(bǔ)的狀態(tài)，而不是自然擴(kuò)展。

在這樣的背景下，來(lái)自東南大學(xué)的耿新團(tuán)隊(duì)提出了論文《Model Merging in the Essential Subspace》。他們沒(méi)有再去做更復(fù)雜的參數(shù)融合，而是換了一個(gè)更關(guān)鍵的問(wèn)題來(lái)思考，也就是模型里的“重要信息到底在哪里”。

近年來(lái)，耿新團(tuán)隊(duì)提出的“學(xué)習(xí)基因”思想（即在多任務(wù)之間共享核心的關(guān)鍵模型參數(shù)）為這一問(wèn)題提供新的解決方案。研究團(tuán)隊(duì)發(fā)現(xiàn)，模型的有效能力其實(shí)并不是均勻分布在所有參數(shù)里，而是集中在少數(shù)幾個(gè)關(guān)鍵方向上，這些方向才是真正決定任務(wù)表現(xiàn)的部分。

一旦這樣理解，問(wèn)題就變清楚了。多任務(wù)融合失敗，不是因?yàn)閰?shù)沒(méi)合好，而是因?yàn)檫@些關(guān)鍵方向發(fā)生了重疊和沖突。于是，這項(xiàng)研究做的事情就變成兩步，一步是把不同任務(wù)的重要方向盡量分開，避免它們互相擠占；另一步是讓更重要的信息被保留下來(lái)，而不重要的部分被壓下去。這樣一來(lái)，不同任務(wù)就有可能在同一個(gè)模型里穩(wěn)定共存。

從這個(gè)角度看，這篇工作真正改變的，不只是方法本身，而是看問(wèn)題的方式。它把模型融合從簡(jiǎn)單的參數(shù)操作，變成了一個(gè)關(guān)于信息如何分配、如何共存的問(wèn)題，也讓多任務(wù)系統(tǒng)不再只是不斷疊加能力，而開始有可能真正“長(zhǎng)”出更多能力，而不互相干擾。

論文鏈接：https://arxiv.org/pdf/2602.20208

模型融合失敗，根源子空間沖突

從實(shí)驗(yàn)結(jié)果來(lái)看，研究團(tuán)隊(duì)真正想說(shuō)明的，不是方法在某一個(gè)設(shè)置下偶然更高，而是隨著多任務(wù)融合難度上升，ESM (Essential Subspace Merging）仍然能夠保持更穩(wěn)定的性能。

傳統(tǒng)方法在任務(wù)不斷增加時(shí)，往往會(huì)出現(xiàn)明顯的性能滑坡，任務(wù)越多，任務(wù)之間的互相干擾則越強(qiáng)，最終導(dǎo)致融合效果快速下降。相比之下，ESM的表現(xiàn)更穩(wěn)定，當(dāng)其他基線的性能損耗通常達(dá)到 8% 到 9% 時(shí)，ESM 的損耗幅度明顯更小，整體損耗率相比基線低了約 20%。這說(shuō)明 ESM 更能抵抗多任務(wù)增加后帶來(lái)的相互干擾，能夠保住更多原本屬于各個(gè)任務(wù)的有效知識(shí)。

如果把模型規(guī)模一起看，研究結(jié)果還能說(shuō)明另一點(diǎn)。在更大的模型上，各種方法本來(lái)就已經(jīng)能做到 90 以上，ESM 相比現(xiàn)有強(qiáng)方法的提升會(huì)縮小到大約 0.3 到 0.5。

這并不表示 ESM 作用變?nèi)酰炊f(shuō)明大模型本身就有更強(qiáng)的表示容量和更自然的子空間分離能力，因此 ESM 的價(jià)值，本質(zhì)上就是人為構(gòu)造一種更清晰的子空間解耦機(jī)制，而這種機(jī)制在模型容量有限時(shí)更重要。

研究還給出了一個(gè)很關(guān)鍵的上下界參照。未微調(diào)模型的性能大約在 50% 到 65% 之間，單任務(wù)微調(diào)后的專家模型大約在 90% 以上，而 ESM 能達(dá)到 81% 到 91%。

這說(shuō)明 ESM 已經(jīng)不只是比基線略好一點(diǎn)，而是在明顯逼近多任務(wù)融合的理想上界。換句話說(shuō)，ESM 已經(jīng)相當(dāng)接近“多個(gè)任務(wù)合并后仍盡量保持單任務(wù)效”的目標(biāo)。

為了說(shuō)明為什么會(huì)更好，研究人員又做了拆解實(shí)驗(yàn)。只把分解方式從 SVD 換成 ESD，性能就會(huì)從 89.0 提升到 90.9，增幅達(dá)到 1.9，這說(shuō)明問(wèn)題的關(guān)鍵首先在于子空間選擇。

之后再加入 Polarized Scaling，性能又從 90.9 提升到 91.8，再提高 0.9，這表明 ESD 主要解決信息丟失問(wèn)題，而 Polarized Scaling 主要解決信息競(jìng)爭(zhēng)問(wèn)題。也就是說(shuō)，整個(gè)方法之所以有效，是因?yàn)樗瑫r(shí)處理了“保留什么信息”和“怎樣讓這些信息共存”這兩個(gè)核心問(wèn)題。

進(jìn)一步看內(nèi)部機(jī)制，研究發(fā)現(xiàn) ESD 在只保留較少成分時(shí)，仍然能留下更多有效信息，而傳統(tǒng)的 SVD 需要保留更多維度才能達(dá)到相近效果。這說(shuō)明 ESD 找到的是更集中、更高效的信息表示，真正關(guān)鍵的任務(wù)知識(shí)并不是均勻分布在所有方向上，而是集中在少數(shù)功能性更強(qiáng)的方向里。

研究還發(fā)現(xiàn)，即使只保留 5% 的成分，ESD 得到的融合模型與原專家模型之間仍然有更高的特征一致性，這說(shuō)明 ESD 保留下來(lái)的不是表面的參數(shù)結(jié)構(gòu)，而是更接近任務(wù)語(yǔ)義和模型行為本身的東西。

在數(shù)據(jù)依賴性上，研究團(tuán)隊(duì)也給出了很強(qiáng)的證據(jù)。無(wú)論使用正常采樣的數(shù)據(jù)、只包含單一類別的偏置數(shù)據(jù)，還是完全無(wú)關(guān)的外部分布數(shù)據(jù)，結(jié)果幾乎都沒(méi)有明顯差異。

同時(shí)，只用 1 個(gè)樣本時(shí)效果就已經(jīng)超過(guò) baseline，只用 4 個(gè)樣本時(shí)就已經(jīng)接近最優(yōu)，增加到 32 個(gè)樣本后基本收斂。這說(shuō)明任務(wù)子空間本身是一種低維結(jié)構(gòu)，不需要大量數(shù)據(jù)去估計(jì)，模型內(nèi)部其實(shí)已經(jīng)編碼了穩(wěn)定的任務(wù)響應(yīng)模式。

最后，關(guān)于 Polarized Scaling，研究表明單獨(dú)放大強(qiáng)信號(hào)會(huì)提升性能，單獨(dú)抑制弱噪聲也會(huì)提升性能，而兩者結(jié)合時(shí)效果最好。這說(shuō)明多任務(wù)融合本質(zhì)上不是簡(jiǎn)單做參數(shù)平均，而更像一個(gè)信號(hào)篩選與重加權(quán)過(guò)程。

在模型內(nèi)部重建知識(shí)邊界

實(shí)驗(yàn)中，研究團(tuán)隊(duì)其實(shí)是在系統(tǒng)控制三個(gè)核心變量，目的是檢驗(yàn)?zāi)囊环N組合最接近“無(wú)損融合”。

第一個(gè)變量是子空間構(gòu)造方式，也就是比較 SVD 和 ESD，前者建立在參數(shù)空間上，后者建立在輸出空間上，這也是整項(xiàng)研究最核心的對(duì)比。

第二個(gè)變量是融合方式，也就是比較直接拼接和正交化處理，前者更直接，后者則試圖消除不同任務(wù)表示之間的相關(guān)性。第三個(gè)變量是權(quán)重分配，也就是比較不加權(quán)融合和基于 norm 的 scaling，核心問(wèn)題在于，不同任務(wù)信息在合并時(shí)是否應(yīng)該被同等對(duì)待。

研究團(tuán)隊(duì)在數(shù)據(jù)設(shè)計(jì)上也有很強(qiáng)的針對(duì)性，所選任務(wù)覆蓋圖像、文本和數(shù)字等差異很大的類型，例如 Cars、SUN397、SST2 和 MNIST，目的不是追求任務(wù)豐富本身，而是盡量放大任務(wù)之間的差異與沖突，因?yàn)橹挥性谶@種高異質(zhì)性條件下方法仍然有效，才能說(shuō)明研究人員真正解決的是干擾問(wèn)題，而不是只在相近任務(wù)上取得局部改進(jìn)。

與此同時(shí)，研究人員在構(gòu)造 proxy 數(shù)據(jù)時(shí)刻意把數(shù)據(jù)規(guī)模壓到很小，每個(gè)任務(wù)只使用 32 個(gè)無(wú)標(biāo)簽樣本，這種設(shè)計(jì)不是為了節(jié)省計(jì)算而已，更重要的是驗(yàn)證子空間究竟來(lái)自模型內(nèi)在結(jié)構(gòu)，還是只是來(lái)自數(shù)據(jù)統(tǒng)計(jì)結(jié)果，后續(xù)實(shí)驗(yàn)結(jié)果表明，研究人員提取到的確實(shí)更接近模型內(nèi)部已經(jīng)形成的任務(wù)結(jié)構(gòu)。

為了保證不同任務(wù)在融合中擁有相對(duì)公平的表達(dá)容量，研究團(tuán)隊(duì)又設(shè)計(jì)了 rank 分配策略，讓每個(gè)任務(wù)分配到的維度滿足 k = 總維度 / 任務(wù)數(shù)，這一步本質(zhì)上是在做資源公平分配，因?yàn)槿绻麤](méi)有這種約束，強(qiáng)任務(wù)更容易占據(jù)更多表示空間，弱任務(wù)則可能被淹沒(méi)。

進(jìn)入融合階段之后，研究人員發(fā)現(xiàn)簡(jiǎn)單拼接會(huì)帶來(lái)兩個(gè)直接問(wèn)題，一是不同任務(wù)子空間可能發(fā)生重疊，二是重疊之后會(huì)引發(fā)信息沖突，因此又加入正交化步驟，其本質(zhì)作用就是強(qiáng)制不同任務(wù)子空間盡量獨(dú)立，這個(gè)過(guò)程在思想上很接近 PCA whitening 或信號(hào)去相關(guān)。

最后，在權(quán)重調(diào)整上，研究團(tuán)隊(duì)進(jìn)一步從實(shí)驗(yàn)中發(fā)現(xiàn)，高 norm 往往對(duì)應(yīng)更重要的參數(shù)變化，而低 norm 更接近噪聲，因此設(shè)計(jì)出 scaling ∝ (norm / 平均值)^2 這樣的規(guī)則，并且把這種縮放分成三個(gè)層面來(lái)實(shí)施，也就是任務(wù)層上防止某些任務(wù)被淹沒(méi)，維度層上突出更關(guān)鍵的特征方向，層級(jí)上減少殘差結(jié)構(gòu)帶來(lái)的干擾。

有限空間里的多任務(wù)共存機(jī)制

有限空間里的多任務(wù)共存機(jī)制

整體來(lái)看，這項(xiàng)研究的價(jià)值不只是提出了一種更強(qiáng)的模型融合方法，而是把模型融合從參數(shù)拼接，推進(jìn)到了知識(shí)結(jié)構(gòu)重組這一層。過(guò)去很多方法默認(rèn)，多個(gè)模型能不能融合，關(guān)鍵在參數(shù)能不能平均好，但這項(xiàng)研究說(shuō)明，真正需要被保留的其實(shí)是模型處理輸入時(shí)依賴的關(guān)鍵功能方向。

也就是說(shuō)，研究人員重新定義了模型融合問(wèn)題，關(guān)注點(diǎn)不再只是參數(shù)本身，而是模型能力在表示空間里如何存在、如何共存。

這項(xiàng)研究還把多任務(wù)干擾解釋得更清楚了。過(guò)去大家知道任務(wù)一多就容易互相拖累，但往往只能停留在沖突這個(gè)現(xiàn)象層面。研究團(tuán)隊(duì)進(jìn)一步指出，干擾主要來(lái)自兩個(gè)原因，一是不同任務(wù)會(huì)擠占相近的表示方向，二是強(qiáng)信息和弱信息在融合時(shí)會(huì)相互競(jìng)爭(zhēng)，結(jié)果就是重要知識(shí)容易被噪聲淹沒(méi)。

ESD 的意義在于把不同任務(wù)的核心方向盡量分開，PS 的意義在于把更重要的信號(hào)放大、把不重要的部分壓下去，所以這項(xiàng)研究真正完成的，是把干擾的來(lái)源和解決路徑連成了一個(gè)完整解釋。

更深一層看，研究結(jié)果還揭示了深度模型內(nèi)部一個(gè)很重要的性質(zhì)，也就是任務(wù)知識(shí)雖然存在于高維參數(shù)里，但真正決定性能的變化往往集中在少數(shù)方向上，而且這種結(jié)構(gòu)對(duì)具體數(shù)據(jù)并不敏感。

這說(shuō)明大模型內(nèi)部并不是雜亂無(wú)章的，而是存在一種可以被提煉、被壓縮、被重新組合的低維結(jié)構(gòu)。這個(gè)發(fā)現(xiàn)的意義很大，因?yàn)樗馕吨磥?lái)改進(jìn)模型，不一定總要靠更大數(shù)據(jù)和更長(zhǎng)訓(xùn)練，也可以通過(guò)理解模型內(nèi)部已有的知識(shí)組織方式來(lái)提升能力。

這項(xiàng)研究對(duì)普通人的影響也很現(xiàn)實(shí)。它意味著未來(lái)的 AI 系統(tǒng)更有可能在不反復(fù)重訓(xùn)的情況下，把多種能力整合到同一個(gè)模型里，而且整合之后更穩(wěn)定，不容易因?yàn)樵黾右粋€(gè)新功能就損傷原來(lái)的能力。

對(duì)普通用戶來(lái)說(shuō)，這會(huì)讓 AI 工具更像一個(gè)能力完整的通用助手，而不是很多彼此割裂的小工具。對(duì)企業(yè)和平臺(tái)來(lái)說(shuō)，這也可能降低部署成本和算力消耗，最后體現(xiàn)在更便宜的服務(wù)、更快的響應(yīng)，以及更多設(shè)備本地就能運(yùn)行的智能功能。

所以，這項(xiàng)研究真正重要的地方，不只是把結(jié)果做高了一些，而是證明了模型融合可以從經(jīng)驗(yàn)式參數(shù)處理，走向?qū)χR(shí)結(jié)構(gòu)的理解與重組，這既推動(dòng)了學(xué)術(shù)上對(duì)模型內(nèi)部機(jī)制的認(rèn)識(shí)，也會(huì)影響普通人未來(lái)使用 AI 的方式。

ESM 背后的研究者

這篇論文通訊作者為耿新，他是東南大學(xué)首席教授、東南大學(xué)研究生院常務(wù)副院長(zhǎng)，以及新一代人工智能技術(shù)與交叉應(yīng)用教育部重點(diǎn)實(shí)驗(yàn)室主任。

他分別于 2001 年和 2004 年在南京大學(xué)獲得學(xué)士、碩士學(xué)位，2008 年在澳大利亞 Deakin 大學(xué)獲得博士學(xué)位，之后長(zhǎng)期在東南大學(xué)從事教學(xué)與科研工作，并創(chuàng)建了模式學(xué)習(xí)與挖掘（PALM）實(shí)驗(yàn)室。

在學(xué)術(shù)成果方面，他長(zhǎng)期深耕機(jī)器學(xué)習(xí)、大模型、模式識(shí)別、計(jì)算機(jī)視覺(jué)等方向，在重要國(guó)際期刊和會(huì)議發(fā)表論文 230 余篇，獲得國(guó)家杰出青年科學(xué)基金、國(guó)家優(yōu)秀青年科學(xué)基金、國(guó)家自然科學(xué)二等獎(jiǎng)、教育部自然科學(xué)一等獎(jiǎng)、國(guó)家級(jí)教學(xué)成果一等獎(jiǎng)和二等獎(jiǎng)、科學(xué)探索獎(jiǎng)、吳文俊人工智能自然科學(xué)一等獎(jiǎng)等榮譽(yù)，同時(shí)擔(dān)任多個(gè)國(guó)際會(huì)議程序委員會(huì)主席、領(lǐng)域主席及多個(gè)期刊編委。

在研究工作上，他圍繞模型中的知識(shí)表示與重組展開，早期代表性工作集中在標(biāo)記分布學(xué)習(xí)，也就是把傳統(tǒng)單標(biāo)記或多標(biāo)記學(xué)習(xí)問(wèn)題推進(jìn)到具有更細(xì)粒度表示的標(biāo)記分布學(xué)習(xí)，之后又把研究重心逐步擴(kuò)展到端側(cè)大模型和學(xué)習(xí)基因（ Learngene）等方向，探索從基礎(chǔ)模型中提取可繼承、可復(fù)用的核心能力，實(shí)現(xiàn)面向不同任務(wù)和不同硬件條件的高效部署。

參考鏈接：https://palm.seu.edu.cn/xgeng/

另一位通訊作者為祁磊，東南大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院副研究員、碩士生導(dǎo)師。早期在南京師范大學(xué)獲得學(xué)士學(xué)位，在南京理工大學(xué)獲得碩士學(xué)位，之后于 2020 年在南京大學(xué)獲得博士學(xué)位，并在讀博期間赴澳大利亞 University of Wollongong 進(jìn)行訪問(wèn)交流。

在學(xué)術(shù)成果方面，祁磊在 ACM/IEEE 匯刊以及 CCF-A 類會(huì)議上發(fā)表 60 余篇論文， Google 學(xué)術(shù)引用 5300 余次，并主持多項(xiàng)國(guó)家級(jí)和省部級(jí)科研項(xiàng)目。同時(shí)，他還入選國(guó)家資助博士后研究人員計(jì)劃、江蘇省卓越博士后、東南大學(xué)紫金學(xué)者等人才計(jì)劃，并獲 CCF 產(chǎn)學(xué)合作基金優(yōu)秀項(xiàng)目案例、江蘇省人工智能學(xué)會(huì)優(yōu)秀博士論文等獎(jiǎng)項(xiàng)。

在研究方向上，祁磊的工作主要集中在計(jì)算機(jī)視覺(jué)與模式識(shí)別領(lǐng)域，近年來(lái)主要關(guān)注于異常檢測(cè)、語(yǔ)義分割，以及領(lǐng)域泛化和視覺(jué)語(yǔ)言模型等方向。

參考鏈接：https://palm.seu.edu.cn/qilei/

未經(jīng)「AI科技評(píng)論」授權(quán)，嚴(yán)禁以任何方式在網(wǎng)頁(yè)、論壇、社區(qū)進(jìn)行轉(zhuǎn)載！

公眾號(hào)轉(zhuǎn)載請(qǐng)先在「AI科技評(píng)論」后臺(tái)留言取得授權(quán)，轉(zhuǎn)載時(shí)需標(biāo)注來(lái)源并插入本公眾號(hào)名片。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.