无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

人大孟澄團隊&華為提出集成剪枝視角下的MoE新架構

0
分享至



本文已被 ICML2026 接收,第一作者康欣來、共同第一作者薛敦耀來自中國人民大學統計與大數據研究院。通訊作者為中國人民大學孟澄助理教授與華為基礎大模型部研究員陳漢亭。

導語

近年來,Mixture-of-Experts(MoE)已經成為大模型擴展的重要架構之一。相比稠密 Transformer,MoE 通過稀疏激活機制,在每個 token 上只調用少量專家,從而在控制計算成本的同時擴大模型容量。然而,一個長期存在的問題是:專家越多,并不意味著專家真的學得越 “專”。

在標準 MoE 中,路由器通常根據 gating score 選擇 top-k 專家。這個機制簡單高效,但也容易造成一個問題:訓練階段高分專家被反復共同選中,不同專家持續處理高度重疊的 token 分布,最終導致專家表征趨同。換言之,多個專家可能只是 “看起來不同”,但實際上在學習相似的模式,陷入了一個專家之間彼此強化的 “回音室”。



針對這一問題,來自中國人民大學、華為基礎模型部等機構的研究團隊提出了Mahalanobis-Pruned Mixture-of-Experts(MP-MoE)。該工作已被ICML 2026接收。

MP-MoE 的核心思想是:不要只選擇最高得分的專家,而是從 “集成剪枝”(ensemble pruning)的角度,將 MoE 路由看作一個專家子集選擇問題,在選擇高置信專家的同時顯式鼓勵專家之間的多樣性。



  • 論文標題:Breaking the Echo Chamber: A Dynamic Ensemble Pruning Perspective on MoE
  • 代碼地址:https://github.com/kxlkxl1999/MP-MoE
  • 論文地址:https://github.com/kxlkxl1999/MP-MoE/blob/main/ICML_camera_ready.pdf

MP-MoE 是怎么做的

MP-MoE 的思路可以概括成三步。

第一,從 top-k Routing 到 Mahalanobis Ensemble Routing。



MP-MoE 則進一步引入專家之間的相關性,構造如下目標:





第二,不額外激活專家:使用專家共現矩陣刻畫專家相似度。



通常的方法是直接利用專家輸出的表征來計算相似度,此類方法往往需要提前激活專家來得到表征,這需要極大的計算代價并且違背了MoE稀疏激活的思想。本文中,作者創新得從概率建模的角度,將某個專家是否被選中看作一個伯努利隨機變量,其對應的協方差估計如下:





數值實驗表明,專家共現矩陣和專家相似矩陣在結構上是高度正相關的,這表明該方法和通常的利用專家輸出的表征來計算相似度具有一定一致性,是一種高效的替代。

左:專家輸出相似度矩陣和共現矩陣的 t-SNE 圖,連線代表對應專家配對。該圖表明二者在結構分布上具有較高一致性。右:不同層之間專家輸出和專家共現的 CKA 相似度。



第三,貪心求解組合優化問題:訓練略增開銷,推理完全不變。

直接求解上述子集選擇問題代價很高,因為需要在所有專家組合中尋找最優子集。為保證可擴展性,MP-MoE 設計了一種高效貪心算法。

每一步中,算法都會評估候選專家加入當前專家集合后的邊際收益。這個收益同時考慮兩個因素:專家自身的路由分數,以及它與已選專家之間的冗余程度。

為了避免每一步都重新計算矩陣逆,MP-MoE 使用增量 Cholesky 更新,從而顯著降低計算復雜度。論文還給出了相應的理論近似保證,說明該貪心選擇可以在一定條件下逼近最優專家子集。

最終,MP-MoE 形成了一個訓練階段的動態專家選擇機制:一邊訓練模型,一邊更新專家共現矩陣,一邊用馬氏距離選擇更互補的專家組合。

實驗結果

專家多樣性

使用線性 CKA 衡量專家之間的輸出相似性。結果顯示,在相同訓練條件下, MP-MoE 的專家間相似度顯著低于標準 MoE。具體而言,在 2、5 和 9 層上,標準 MoE 的線性 CKA 分別為 0.43、0.36 和 0.37,而 MP-MoE 分別降至 0.31、0.28 和 0.30,說明專家輸出之間的重疊程度明顯降低。

在 PCA 可視化中,標準 MoE 的多個專家輸出分布存在明顯重疊,而 MP-MoE 中不同專家的輸出分布更加分離。這說明 MP-MoE 訓練出的專家具有更明顯的功能區分。



Benchmark 結果

實驗結果顯示,在相同預訓練預算下,MP-MoE 在多個任務上穩定優于標準 MoE 1-3 個百分點。





總結

MP-MoE 提供了一個簡單但有效的視角:MoE 路由不應只是選擇分數最高的專家,而應選擇一個整體互補的專家集合。通過將 MoE 專家選擇的思路與集成剪枝聯系起來,MP-MoE 巧妙地利用專家共現矩陣計算專家相似度,將其融入基于集成剪枝的優化目標中來提升專家的多樣性,并通過高效貪心算法實現可擴展的訓練路由。

整體來看,MP-MoE 具有三個突出特點:

第一,它揭示了專家共現和專家相似度之間的關系,顯式促進專家多樣性。

第二,它是即插即用的路由改造,不需要額外激活所有專家,也不需要改變 MoE 主體結構。

第三,它只在訓練階段引入輕微額外開銷,推理階段可以仍然使用標準 top-k 路由,因此不會增加部署成本。

隨著大模型繼續向更大規模、更高稀疏度發展,MoE 的關鍵挑戰將不只是 “如何激活更少參數”,還包括 “如何高效地激活專家”。MP-MoE 給出的答案是:不只看分數,也看關系;不只選強者,也選隊伍。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
古巴8個鮮為人知的事實:曾迫使數萬華人流亡,從富裕國家滑落至極度困難

古巴8個鮮為人知的事實:曾迫使數萬華人流亡,從富裕國家滑落至極度困難

三言四拍
2026-05-30 13:05:06
扎哈羅娃:俄將對羅馬尼亞迅速采取報復措施

扎哈羅娃:俄將對羅馬尼亞迅速采取報復措施

參考消息
2026-05-30 11:58:56
三花智控高管“為孩子教育”減持套現,兩千億巨頭陷熱門概念敘事與資本套現割裂

三花智控高管“為孩子教育”減持套現,兩千億巨頭陷熱門概念敘事與資本套現割裂

每日經濟新聞
2026-05-30 14:41:08
“結婚22年后發現兩兒子均非親生”當事人發聲:我對他們恨之入骨!

“結婚22年后發現兩兒子均非親生”當事人發聲:我對他們恨之入骨!

新民周刊
2026-05-30 17:32:14
兩名9歲女孩被困電梯近2小時!求救幾十次后,保安回應:不要再按電梯玩了

兩名9歲女孩被困電梯近2小時!求救幾十次后,保安回應:不要再按電梯玩了

上觀新聞
2026-05-30 19:34:29
俄烏戰爭,如果俄羅斯最終贏了,你我在有生之年很可能會親歷戰爭

俄烏戰爭,如果俄羅斯最終贏了,你我在有生之年很可能會親歷戰爭

混沌錄
2026-05-29 23:26:12
重磅:烏克蘭擊毀俄羅斯兩架圖142!打掉伊斯坎德爾系統

重磅:烏克蘭擊毀俄羅斯兩架圖142!打掉伊斯坎德爾系統

項鵬飛
2026-05-30 16:28:01
西決搶七大戰裁判出爐:戴維斯擔任主裁 三人執哨兩隊勝率曝光

西決搶七大戰裁判出爐:戴維斯擔任主裁 三人執哨兩隊勝率曝光

羅說NBA
2026-05-30 21:26:04
央視曝光!涉事品牌:全部下架!天熱很多人愛喝

央視曝光!涉事品牌:全部下架!天熱很多人愛喝

蓬勃新聞
2026-05-29 14:53:17
打虎!王益華被查

打虎!王益華被查

新京報
2026-05-30 20:29:17
41歲夫妻因“房事頻繁”雙雙入院,醫生提醒:每周不應超過一個數

41歲夫妻因“房事頻繁”雙雙入院,醫生提醒:每周不應超過一個數

醫學原創故事會
2026-05-29 23:34:07
伊朗濃縮鈾材料將被挖出銷毀,特朗普就伊朗戰事最新表態

伊朗濃縮鈾材料將被挖出銷毀,特朗普就伊朗戰事最新表態

上游新聞
2026-05-29 23:35:03
D1804次列車受電弓遭異物擊打,被困隧道內超2小時,乘客稱全車停電悶熱異常,身上像從水里撈出來的,備用列車已到現場并開始轉運

D1804次列車受電弓遭異物擊打,被困隧道內超2小時,乘客稱全車停電悶熱異常,身上像從水里撈出來的,備用列車已到現場并開始轉運

臺州交通廣播
2026-05-30 13:47:54
耿同學再下一城!南開免去陳某院長職務,14張圖表確認學術不端

耿同學再下一城!南開免去陳某院長職務,14張圖表確認學術不端

聽心堂
2026-05-30 20:24:06
中方代表:日本沒有資格談國際防務合作 須警惕軍國主義思潮借機復活

中方代表:日本沒有資格談國際防務合作 須警惕軍國主義思潮借機復活

環球網資訊
2026-05-30 19:36:11
禁投美股,難得全球大國中惟一正確

禁投美股,難得全球大國中惟一正確

家傳編輯部
2026-05-30 12:24:47
海南一三甲醫院空調外機安在室內走廊,患者吐槽“看病比室外還熱”,院方回應

海南一三甲醫院空調外機安在室內走廊,患者吐槽“看病比室外還熱”,院方回應

上游新聞
2026-05-30 16:05:05
中建八局資質被正式撤銷,給全行業敲響警鐘,考公需要注意了。

中建八局資質被正式撤銷,給全行業敲響警鐘,考公需要注意了。

解說阿洎
2026-05-29 12:34:21
最新!債務突破100萬億!

最新!債務突破100萬億!

葉初七
2026-05-30 10:28:14
網紅狗被偷后續:男子被帶走,老婆還在哺乳期,收狗人曝更多內情

網紅狗被偷后續:男子被帶走,老婆還在哺乳期,收狗人曝更多內情

閱微札記
2026-05-30 11:47:19
2026-05-31 00:19:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
13116文章數 142655關注度
往期回顧 全部

科技要聞

車圈大佬發聲:價格戰遠去,但競爭仍殘酷

頭條要聞

兩名9歲女孩被困電梯近2小時 求救幾十次物業無動于衷

頭條要聞

兩名9歲女孩被困電梯近2小時 求救幾十次物業無動于衷

體育要聞

歲月不饒人!39歲德約鏖戰近5小時拼到嘔吐

娛樂要聞

張碧晨《歌手》 “活人微死” 自嘲

財經要聞

雙匯管不住一頭豬

汽車要聞

900V+3.2秒破百 領克10+&領克10上市16.99萬元起

態度原創

手機
旅游
房產
家居
藝術

手機要聞

REDMI K90至尊版入網?K90單品激活破200萬

旅游要聞

六一帶娃去哪玩?鄭州又多了個好去處!

房產要聞

紅動五月!全國搶入核心資產,廣州盯緊凱旋新世界!

家居要聞

云棲 舒展如流云

藝術要聞

339米!珠海第一高樓,形似“蛟龍出海”

無障礙瀏覽 進入關懷版