![]()
本文已被 ICML2026 接收,第一作者康欣來、共同第一作者薛敦耀來自中國人民大學統計與大數據研究院。通訊作者為中國人民大學孟澄助理教授與華為基礎大模型部研究員陳漢亭。
導語
近年來,Mixture-of-Experts(MoE)已經成為大模型擴展的重要架構之一。相比稠密 Transformer,MoE 通過稀疏激活機制,在每個 token 上只調用少量專家,從而在控制計算成本的同時擴大模型容量。然而,一個長期存在的問題是:專家越多,并不意味著專家真的學得越 “專”。
在標準 MoE 中,路由器通常根據 gating score 選擇 top-k 專家。這個機制簡單高效,但也容易造成一個問題:訓練階段高分專家被反復共同選中,不同專家持續處理高度重疊的 token 分布,最終導致專家表征趨同。換言之,多個專家可能只是 “看起來不同”,但實際上在學習相似的模式,陷入了一個專家之間彼此強化的 “回音室”。
![]()
針對這一問題,來自中國人民大學、華為基礎模型部等機構的研究團隊提出了Mahalanobis-Pruned Mixture-of-Experts(MP-MoE)。該工作已被ICML 2026接收。
MP-MoE 的核心思想是:不要只選擇最高得分的專家,而是從 “集成剪枝”(ensemble pruning)的角度,將 MoE 路由看作一個專家子集選擇問題,在選擇高置信專家的同時顯式鼓勵專家之間的多樣性。
![]()
- 論文標題:Breaking the Echo Chamber: A Dynamic Ensemble Pruning Perspective on MoE
- 代碼地址:https://github.com/kxlkxl1999/MP-MoE
- 論文地址:https://github.com/kxlkxl1999/MP-MoE/blob/main/ICML_camera_ready.pdf
MP-MoE 是怎么做的
MP-MoE 的思路可以概括成三步。
第一,從 top-k Routing 到 Mahalanobis Ensemble Routing。
![]()
MP-MoE 則進一步引入專家之間的相關性,構造如下目標:
![]()
![]()
第二,不額外激活專家:使用專家共現矩陣刻畫專家相似度。
![]()
通常的方法是直接利用專家輸出的表征來計算相似度,此類方法往往需要提前激活專家來得到表征,這需要極大的計算代價并且違背了MoE稀疏激活的思想。本文中,作者創新得從概率建模的角度,將某個專家是否被選中看作一個伯努利隨機變量,其對應的協方差估計如下:
![]()
![]()
數值實驗表明,專家共現矩陣和專家相似矩陣在結構上是高度正相關的,這表明該方法和通常的利用專家輸出的表征來計算相似度具有一定一致性,是一種高效的替代。
左:專家輸出相似度矩陣和共現矩陣的 t-SNE 圖,連線代表對應專家配對。該圖表明二者在結構分布上具有較高一致性。右:不同層之間專家輸出和專家共現的 CKA 相似度。
![]()
第三,貪心求解組合優化問題:訓練略增開銷,推理完全不變。
直接求解上述子集選擇問題代價很高,因為需要在所有專家組合中尋找最優子集。為保證可擴展性,MP-MoE 設計了一種高效貪心算法。
每一步中,算法都會評估候選專家加入當前專家集合后的邊際收益。這個收益同時考慮兩個因素:專家自身的路由分數,以及它與已選專家之間的冗余程度。
為了避免每一步都重新計算矩陣逆,MP-MoE 使用增量 Cholesky 更新,從而顯著降低計算復雜度。論文還給出了相應的理論近似保證,說明該貪心選擇可以在一定條件下逼近最優專家子集。
最終,MP-MoE 形成了一個訓練階段的動態專家選擇機制:一邊訓練模型,一邊更新專家共現矩陣,一邊用馬氏距離選擇更互補的專家組合。
實驗結果
專家多樣性
使用線性 CKA 衡量專家之間的輸出相似性。結果顯示,在相同訓練條件下, MP-MoE 的專家間相似度顯著低于標準 MoE。具體而言,在 2、5 和 9 層上,標準 MoE 的線性 CKA 分別為 0.43、0.36 和 0.37,而 MP-MoE 分別降至 0.31、0.28 和 0.30,說明專家輸出之間的重疊程度明顯降低。
在 PCA 可視化中,標準 MoE 的多個專家輸出分布存在明顯重疊,而 MP-MoE 中不同專家的輸出分布更加分離。這說明 MP-MoE 訓練出的專家具有更明顯的功能區分。
![]()
Benchmark 結果
實驗結果顯示,在相同預訓練預算下,MP-MoE 在多個任務上穩定優于標準 MoE 1-3 個百分點。
![]()
![]()
總結
MP-MoE 提供了一個簡單但有效的視角:MoE 路由不應只是選擇分數最高的專家,而應選擇一個整體互補的專家集合。通過將 MoE 專家選擇的思路與集成剪枝聯系起來,MP-MoE 巧妙地利用專家共現矩陣計算專家相似度,將其融入基于集成剪枝的優化目標中來提升專家的多樣性,并通過高效貪心算法實現可擴展的訓練路由。
整體來看,MP-MoE 具有三個突出特點:
第一,它揭示了專家共現和專家相似度之間的關系,顯式促進專家多樣性。
第二,它是即插即用的路由改造,不需要額外激活所有專家,也不需要改變 MoE 主體結構。
第三,它只在訓練階段引入輕微額外開銷,推理階段可以仍然使用標準 top-k 路由,因此不會增加部署成本。
隨著大模型繼續向更大規模、更高稀疏度發展,MoE 的關鍵挑戰將不只是 “如何激活更少參數”,還包括 “如何高效地激活專家”。MP-MoE 給出的答案是:不只看分數,也看關系;不只選強者,也選隊伍。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.