![]()
ESM:阻斷子空間干擾,實(shí)現(xiàn)多任務(wù)能力穩(wěn)定共存。
作者丨鄭佳美
編輯丨岑 峰
你可能遇到過(guò)這樣一種情況,一個(gè)模型原本只做一件事的時(shí)候表現(xiàn)很好,但一旦不斷往里面加新任務(wù),它反而開始變差了。不是徹底失效,而是變得不穩(wěn)定,有些能力開始下降,有些結(jié)果開始波動(dòng)。問(wèn)題不在于模型不會(huì),而在于它原本會(huì)的東西,被后來(lái)加入的任務(wù)“擠掉了一部分”。
這背后其實(shí)有一個(gè)很少被說(shuō)清楚的問(wèn)題。模型的能力并不是一塊一塊獨(dú)立放進(jìn)去的,而是共享同一套內(nèi)部表示空間。簡(jiǎn)單理解,就是所有任務(wù)都在“用同一塊地方存信息”。
當(dāng)任務(wù)變多時(shí),它們不是并排存在,而是在爭(zhēng)這塊空間里最重要的那些位置。誰(shuí)占得多,誰(shuí)就更穩(wěn)定;誰(shuí)被擠掉,誰(shuí)的性能就下降。這就是為什么,多任務(wù)融合經(jīng)常不是越多越強(qiáng),而是越多越亂。
現(xiàn)實(shí)中,這種問(wèn)題其實(shí)非常普遍。比如一個(gè)持續(xù)迭代的系統(tǒng),不斷往里加新能力,每一次看起來(lái)只是“多做了一件事”,但實(shí)際上是在重新分配內(nèi)部的表示空間。如果沒(méi)有好的機(jī)制,新的能力往往會(huì)影響舊的能力,最后系統(tǒng)變成一個(gè)需要不斷修補(bǔ)的狀態(tài),而不是自然擴(kuò)展。
在這樣的背景下,來(lái)自東南大學(xué)的耿新團(tuán)隊(duì)提出了論文《Model Merging in the Essential Subspace》。他們沒(méi)有再去做更復(fù)雜的參數(shù)融合,而是換了一個(gè)更關(guān)鍵的問(wèn)題來(lái)思考,也就是模型里的“重要信息到底在哪里”。
近年來(lái),耿新團(tuán)隊(duì)提出的“學(xué)習(xí)基因”思想(即在多任務(wù)之間共享核心的關(guān)鍵模型參數(shù))為這一問(wèn)題提供新的解決方案。研究團(tuán)隊(duì)發(fā)現(xiàn),模型的有效能力其實(shí)并不是均勻分布在所有參數(shù)里,而是集中在少數(shù)幾個(gè)關(guān)鍵方向上,這些方向才是真正決定任務(wù)表現(xiàn)的部分。
一旦這樣理解,問(wèn)題就變清楚了。多任務(wù)融合失敗,不是因?yàn)閰?shù)沒(méi)合好,而是因?yàn)檫@些關(guān)鍵方向發(fā)生了重疊和沖突。于是,這項(xiàng)研究做的事情就變成兩步,一步是把不同任務(wù)的重要方向盡量分開,避免它們互相擠占;另一步是讓更重要的信息被保留下來(lái),而不重要的部分被壓下去。這樣一來(lái),不同任務(wù)就有可能在同一個(gè)模型里穩(wěn)定共存。
從這個(gè)角度看,這篇工作真正改變的,不只是方法本身,而是看問(wèn)題的方式。它把模型融合從簡(jiǎn)單的參數(shù)操作,變成了一個(gè)關(guān)于信息如何分配、如何共存的問(wèn)題,也讓多任務(wù)系統(tǒng)不再只是不斷疊加能力,而開始有可能真正“長(zhǎng)”出更多能力,而不互相干擾。
![]()
論文鏈接:https://arxiv.org/pdf/2602.20208
01
模型融合失敗,根源子空間沖突
從實(shí)驗(yàn)結(jié)果來(lái)看,研究團(tuán)隊(duì)真正想說(shuō)明的,不是方法在某一個(gè)設(shè)置下偶然更高,而是隨著多任務(wù)融合難度上升,ESM (Essential Subspace Merging)仍然能夠保持更穩(wěn)定的性能。
傳統(tǒng)方法在任務(wù)不斷增加時(shí),往往會(huì)出現(xiàn)明顯的性能滑坡,任務(wù)越多,任務(wù)之間的互相干擾則越強(qiáng),最終導(dǎo)致融合效果快速下降。相比之下,ESM的表現(xiàn)更穩(wěn)定,當(dāng)其他基線的性能損耗通常達(dá)到 8% 到 9% 時(shí),ESM 的損耗幅度明顯更小,整體損耗率相比基線低了約 20%。這說(shuō)明 ESM 更能抵抗多任務(wù)增加后帶來(lái)的相互干擾,能夠保住更多原本屬于各個(gè)任務(wù)的有效知識(shí)。
如果把模型規(guī)模一起看,研究結(jié)果還能說(shuō)明另一點(diǎn)。在更大的模型上,各種方法本來(lái)就已經(jīng)能做到 90 以上,ESM 相比現(xiàn)有強(qiáng)方法的提升會(huì)縮小到大約 0.3 到 0.5。
這并不表示 ESM 作用變?nèi)酰炊f(shuō)明大模型本身就有更強(qiáng)的表示容量和更自然的子空間分離能力,因此 ESM 的價(jià)值,本質(zhì)上就是人為構(gòu)造一種更清晰的子空間解耦機(jī)制,而這種機(jī)制在模型容量有限時(shí)更重要。
![]()
研究還給出了一個(gè)很關(guān)鍵的上下界參照。未微調(diào)模型的性能大約在 50% 到 65% 之間,單任務(wù)微調(diào)后的專家模型大約在 90% 以上,而 ESM 能達(dá)到 81% 到 91%。
這說(shuō)明 ESM 已經(jīng)不只是比基線略好一點(diǎn),而是在明顯逼近多任務(wù)融合的理想上界。換句話說(shuō),ESM 已經(jīng)相當(dāng)接近“多個(gè)任務(wù)合并后仍盡量保持單任務(wù)效”的目標(biāo)。
為了說(shuō)明為什么會(huì)更好,研究人員又做了拆解實(shí)驗(yàn)。只把分解方式從 SVD 換成 ESD,性能就會(huì)從 89.0 提升到 90.9,增幅達(dá)到 1.9,這說(shuō)明問(wèn)題的關(guān)鍵首先在于子空間選擇。
之后再加入 Polarized Scaling,性能又從 90.9 提升到 91.8,再提高 0.9,這表明 ESD 主要解決信息丟失問(wèn)題,而 Polarized Scaling 主要解決信息競(jìng)爭(zhēng)問(wèn)題。也就是說(shuō),整個(gè)方法之所以有效,是因?yàn)樗瑫r(shí)處理了“保留什么信息”和“怎樣讓這些信息共存”這兩個(gè)核心問(wèn)題。
![]()
進(jìn)一步看內(nèi)部機(jī)制,研究發(fā)現(xiàn) ESD 在只保留較少成分時(shí),仍然能留下更多有效信息,而傳統(tǒng)的 SVD 需要保留更多維度才能達(dá)到相近效果。這說(shuō)明 ESD 找到的是更集中、更高效的信息表示,真正關(guān)鍵的任務(wù)知識(shí)并不是均勻分布在所有方向上,而是集中在少數(shù)功能性更強(qiáng)的方向里。
研究還發(fā)現(xiàn),即使只保留 5% 的成分,ESD 得到的融合模型與原專家模型之間仍然有更高的特征一致性,這說(shuō)明 ESD 保留下來(lái)的不是表面的參數(shù)結(jié)構(gòu),而是更接近任務(wù)語(yǔ)義和模型行為本身的東西。
![]()
在數(shù)據(jù)依賴性上,研究團(tuán)隊(duì)也給出了很強(qiáng)的證據(jù)。無(wú)論使用正常采樣的數(shù)據(jù)、只包含單一類別的偏置數(shù)據(jù),還是完全無(wú)關(guān)的外部分布數(shù)據(jù),結(jié)果幾乎都沒(méi)有明顯差異。
同時(shí),只用 1 個(gè)樣本時(shí)效果就已經(jīng)超過(guò) baseline,只用 4 個(gè)樣本時(shí)就已經(jīng)接近最優(yōu),增加到 32 個(gè)樣本后基本收斂。這說(shuō)明任務(wù)子空間本身是一種低維結(jié)構(gòu),不需要大量數(shù)據(jù)去估計(jì),模型內(nèi)部其實(shí)已經(jīng)編碼了穩(wěn)定的任務(wù)響應(yīng)模式。
最后,關(guān)于 Polarized Scaling,研究表明單獨(dú)放大強(qiáng)信號(hào)會(huì)提升性能,單獨(dú)抑制弱噪聲也會(huì)提升性能,而兩者結(jié)合時(shí)效果最好。這說(shuō)明多任務(wù)融合本質(zhì)上不是簡(jiǎn)單做參數(shù)平均,而更像一個(gè)信號(hào)篩選與重加權(quán)過(guò)程。
![]()
02
在模型內(nèi)部重建知識(shí)邊界
實(shí)驗(yàn)中,研究團(tuán)隊(duì)其實(shí)是在系統(tǒng)控制三個(gè)核心變量,目的是檢驗(yàn)?zāi)囊环N組合最接近“無(wú)損融合”。
第一個(gè)變量是子空間構(gòu)造方式,也就是比較 SVD 和 ESD,前者建立在參數(shù)空間上,后者建立在輸出空間上,這也是整項(xiàng)研究最核心的對(duì)比。
第二個(gè)變量是融合方式,也就是比較直接拼接和正交化處理,前者更直接,后者則試圖消除不同任務(wù)表示之間的相關(guān)性。第三個(gè)變量是權(quán)重分配,也就是比較不加權(quán)融合和基于 norm 的 scaling,核心問(wèn)題在于,不同任務(wù)信息在合并時(shí)是否應(yīng)該被同等對(duì)待。
研究團(tuán)隊(duì)在數(shù)據(jù)設(shè)計(jì)上也有很強(qiáng)的針對(duì)性,所選任務(wù)覆蓋圖像、文本和數(shù)字等差異很大的類型,例如 Cars、SUN397、SST2 和 MNIST,目的不是追求任務(wù)豐富本身,而是盡量放大任務(wù)之間的差異與沖突,因?yàn)橹挥性谶@種高異質(zhì)性條件下方法仍然有效,才能說(shuō)明研究人員真正解決的是干擾問(wèn)題,而不是只在相近任務(wù)上取得局部改進(jìn)。
![]()
與此同時(shí),研究人員在構(gòu)造 proxy 數(shù)據(jù)時(shí)刻意把數(shù)據(jù)規(guī)模壓到很小,每個(gè)任務(wù)只使用 32 個(gè)無(wú)標(biāo)簽樣本,這種設(shè)計(jì)不是為了節(jié)省計(jì)算而已,更重要的是驗(yàn)證子空間究竟來(lái)自模型內(nèi)在結(jié)構(gòu),還是只是來(lái)自數(shù)據(jù)統(tǒng)計(jì)結(jié)果,后續(xù)實(shí)驗(yàn)結(jié)果表明,研究人員提取到的確實(shí)更接近模型內(nèi)部已經(jīng)形成的任務(wù)結(jié)構(gòu)。
為了保證不同任務(wù)在融合中擁有相對(duì)公平的表達(dá)容量,研究團(tuán)隊(duì)又設(shè)計(jì)了 rank 分配策略,讓每個(gè)任務(wù)分配到的維度滿足 k = 總維度 / 任務(wù)數(shù),這一步本質(zhì)上是在做資源公平分配,因?yàn)槿绻麤](méi)有這種約束,強(qiáng)任務(wù)更容易占據(jù)更多表示空間,弱任務(wù)則可能被淹沒(méi)。
![]()
進(jìn)入融合階段之后,研究人員發(fā)現(xiàn)簡(jiǎn)單拼接會(huì)帶來(lái)兩個(gè)直接問(wèn)題,一是不同任務(wù)子空間可能發(fā)生重疊,二是重疊之后會(huì)引發(fā)信息沖突,因此又加入正交化步驟,其本質(zhì)作用就是強(qiáng)制不同任務(wù)子空間盡量獨(dú)立,這個(gè)過(guò)程在思想上很接近 PCA whitening 或信號(hào)去相關(guān)。
最后,在權(quán)重調(diào)整上,研究團(tuán)隊(duì)進(jìn)一步從實(shí)驗(yàn)中發(fā)現(xiàn),高 norm 往往對(duì)應(yīng)更重要的參數(shù)變化,而低 norm 更接近噪聲,因此設(shè)計(jì)出 scaling ∝ (norm / 平均值)^2 這樣的規(guī)則,并且把這種縮放分成三個(gè)層面來(lái)實(shí)施,也就是任務(wù)層上防止某些任務(wù)被淹沒(méi),維度層上突出更關(guān)鍵的特征方向,層級(jí)上減少殘差結(jié)構(gòu)帶來(lái)的干擾。
![]()
03
有限空間里的多任務(wù)共存機(jī)制
有限空間里的多任務(wù)共存機(jī)制
整體來(lái)看,這項(xiàng)研究的價(jià)值不只是提出了一種更強(qiáng)的模型融合方法,而是把模型融合從參數(shù)拼接,推進(jìn)到了知識(shí)結(jié)構(gòu)重組這一層。過(guò)去很多方法默認(rèn),多個(gè)模型能不能融合,關(guān)鍵在參數(shù)能不能平均好,但這項(xiàng)研究說(shuō)明,真正需要被保留的其實(shí)是模型處理輸入時(shí)依賴的關(guān)鍵功能方向。
也就是說(shuō),研究人員重新定義了模型融合問(wèn)題,關(guān)注點(diǎn)不再只是參數(shù)本身,而是模型能力在表示空間里如何存在、如何共存。
這項(xiàng)研究還把多任務(wù)干擾解釋得更清楚了。過(guò)去大家知道任務(wù)一多就容易互相拖累,但往往只能停留在沖突這個(gè)現(xiàn)象層面。研究團(tuán)隊(duì)進(jìn)一步指出,干擾主要來(lái)自兩個(gè)原因,一是不同任務(wù)會(huì)擠占相近的表示方向,二是強(qiáng)信息和弱信息在融合時(shí)會(huì)相互競(jìng)爭(zhēng),結(jié)果就是重要知識(shí)容易被噪聲淹沒(méi)。
ESD 的意義在于把不同任務(wù)的核心方向盡量分開,PS 的意義在于把更重要的信號(hào)放大、把不重要的部分壓下去,所以這項(xiàng)研究真正完成的,是把干擾的來(lái)源和解決路徑連成了一個(gè)完整解釋。
更深一層看,研究結(jié)果還揭示了深度模型內(nèi)部一個(gè)很重要的性質(zhì),也就是任務(wù)知識(shí)雖然存在于高維參數(shù)里,但真正決定性能的變化往往集中在少數(shù)方向上,而且這種結(jié)構(gòu)對(duì)具體數(shù)據(jù)并不敏感。
這說(shuō)明大模型內(nèi)部并不是雜亂無(wú)章的,而是存在一種可以被提煉、被壓縮、被重新組合的低維結(jié)構(gòu)。這個(gè)發(fā)現(xiàn)的意義很大,因?yàn)樗馕吨磥?lái)改進(jìn)模型,不一定總要靠更大數(shù)據(jù)和更長(zhǎng)訓(xùn)練,也可以通過(guò)理解模型內(nèi)部已有的知識(shí)組織方式來(lái)提升能力。
這項(xiàng)研究對(duì)普通人的影響也很現(xiàn)實(shí)。它意味著未來(lái)的 AI 系統(tǒng)更有可能在不反復(fù)重訓(xùn)的情況下,把多種能力整合到同一個(gè)模型里,而且整合之后更穩(wěn)定,不容易因?yàn)樵黾右粋€(gè)新功能就損傷原來(lái)的能力。
對(duì)普通用戶來(lái)說(shuō),這會(huì)讓 AI 工具更像一個(gè)能力完整的通用助手,而不是很多彼此割裂的小工具。對(duì)企業(yè)和平臺(tái)來(lái)說(shuō),這也可能降低部署成本和算力消耗,最后體現(xiàn)在更便宜的服務(wù)、更快的響應(yīng),以及更多設(shè)備本地就能運(yùn)行的智能功能。
所以,這項(xiàng)研究真正重要的地方,不只是把結(jié)果做高了一些,而是證明了模型融合可以從經(jīng)驗(yàn)式參數(shù)處理,走向?qū)χR(shí)結(jié)構(gòu)的理解與重組,這既推動(dòng)了學(xué)術(shù)上對(duì)模型內(nèi)部機(jī)制的認(rèn)識(shí),也會(huì)影響普通人未來(lái)使用 AI 的方式。
04
ESM 背后的研究者
這篇論文通訊作者為耿新,他是東南大學(xué)首席教授、東南大學(xué)研究生院常務(wù)副院長(zhǎng),以及新一代人工智能技術(shù)與交叉應(yīng)用教育部重點(diǎn)實(shí)驗(yàn)室主任。
他分別于 2001 年和 2004 年在南京大學(xué)獲得學(xué)士、碩士學(xué)位,2008 年在澳大利亞 Deakin 大學(xué)獲得博士學(xué)位,之后長(zhǎng)期在東南大學(xué)從事教學(xué)與科研工作,并創(chuàng)建了模式學(xué)習(xí)與挖掘(PALM)實(shí)驗(yàn)室。
在學(xué)術(shù)成果方面,他長(zhǎng)期深耕機(jī)器學(xué)習(xí)、大模型、模式識(shí)別、計(jì)算機(jī)視覺(jué)等方向,在重要國(guó)際期刊和會(huì)議發(fā)表論文 230 余篇,獲得國(guó)家杰出青年科學(xué)基金、國(guó)家優(yōu)秀青年科學(xué)基金、國(guó)家自然科學(xué)二等獎(jiǎng)、教育部自然科學(xué)一等獎(jiǎng)、國(guó)家級(jí)教學(xué)成果一等獎(jiǎng)和二等獎(jiǎng)、科學(xué)探索獎(jiǎng)、吳文俊人工智能自然科學(xué)一等獎(jiǎng)等榮譽(yù),同時(shí)擔(dān)任多個(gè)國(guó)際會(huì)議程序委員會(huì)主席、領(lǐng)域主席及多個(gè)期刊編委。
在研究工作上,他圍繞模型中的知識(shí)表示與重組展開,早期代表性工作集中在標(biāo)記分布學(xué)習(xí),也就是把傳統(tǒng)單標(biāo)記或多標(biāo)記學(xué)習(xí)問(wèn)題推進(jìn)到具有更細(xì)粒度表示的標(biāo)記分布學(xué)習(xí),之后又把研究重心逐步擴(kuò)展到端側(cè)大模型和學(xué)習(xí)基因( Learngene)等方向,探索從基礎(chǔ)模型中提取可繼承、可復(fù)用的核心能力,實(shí)現(xiàn)面向不同任務(wù)和不同硬件條件的高效部署。
![]()
參考鏈接:https://palm.seu.edu.cn/xgeng/
另一位通訊作者為祁磊,東南大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院副研究員、碩士生導(dǎo)師。早期在南京師范大學(xué)獲得學(xué)士學(xué)位,在南京理工大學(xué)獲得碩士學(xué)位,之后于 2020 年在南京大學(xué)獲得博士學(xué)位,并在讀博期間赴澳大利亞 University of Wollongong 進(jìn)行訪問(wèn)交流。
在學(xué)術(shù)成果方面,祁磊在 ACM/IEEE 匯刊以及 CCF-A 類會(huì)議上發(fā)表 60 余篇論文, Google 學(xué)術(shù)引用 5300 余次,并主持多項(xiàng)國(guó)家級(jí)和省部級(jí)科研項(xiàng)目 。同時(shí),他還入選國(guó)家資助博士后研究人員計(jì)劃、江蘇省卓越博士后、東南大學(xué)紫金學(xué)者等人才計(jì)劃,并獲 CCF 產(chǎn)學(xué)合作基金優(yōu)秀項(xiàng)目案例、江蘇省人工智能學(xué)會(huì)優(yōu)秀博士論文等獎(jiǎng)項(xiàng)。
在研究方向上,祁磊的工作主要集中在計(jì)算機(jī)視覺(jué)與模式識(shí)別領(lǐng)域,近年來(lái)主要關(guān)注于異常檢測(cè)、語(yǔ)義分割,以及領(lǐng)域泛化和視覺(jué)語(yǔ)言模型等方向 。
![]()
參考鏈接:https://palm.seu.edu.cn/qilei/
![]()
未經(jīng)「AI科技評(píng)論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁(yè)、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!
公眾號(hào)轉(zhuǎn)載請(qǐng)先在「AI科技評(píng)論」后臺(tái)留言取得授權(quán),轉(zhuǎn)載時(shí)需標(biāo)注來(lái)源并插入本公眾號(hào)名片。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.