无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

月之暗面(Moonshot AI)和清華大學最新研究:推理吞吐量暴漲54%

0
分享至

緊跟Kimi K2.6,推一篇有點腦洞的論文,來自月之暗面(Moonshot AI)和清華大學的最新聯合研究

一句話說清楚:這論文在搞什么?

把 Prefill(預填充)變成一種跨數據中心的云服務。

聽起來有點抽象?我換個說法:以前大模型推理的 Prefill 和 Decode 兩個階段必須待在同一個機房里,因為中間傳輸的 KVCache 太大了,跨機房根本搬不動

而這篇論文說,新一代混合注意力模型的 KVCache 縮小了十幾倍甚至幾十倍,我們可以把 Prefill 拆出去、放到另一個機房的高算力集群上跑,然后用普通以太網把 KVCache 傳回來做 Decode

這個架構叫做Prefill-as-a-Service(PrfaaS),實測吞吐量比同構 PD 部署高 54%,比樸素異構方案高 32%


地址 arxiv.org/abs/2604.15039 為什么要搞跨數據中心?

先說背景

PD 分離(Prefill-Decode Disaggregation)已經是大規模 LLM 推理的標準范式了

Moonshot AI 自家的 Mooncake 系統就是這個方向的先行者,后來跟 vLLM、SGLang、Dynamo 都做了深度合作,把 KVCache 當成 vip 來管理

PD 分離的原理很簡單:Prefill 是計算密集型的,Decode 是內存帶寬密集型的,兩者對硬件的需求完全不同

理論上,我們應該用算力強的芯片專門跑 Prefill,用帶寬大的芯片專門跑 Decode——這就是所謂的異構推理

但現實很骨感,問題出在 KVCache 傳輸上

下圖展示了傳統單集群 PD 推理(左)和 PrfaaS 跨數據中心推理(右)的對比:


傳統PD架構 vs PrfaaS架構

在傳統的 Dense Attention 模型里,一個 32K token 的請求,單個 MiniMax-M2.5 實例產生的 KVCache 傳輸速率高達約 60 Gbps。這什么概念?一臺機器的跨數據中心以太網帶寬都扛不住。所以 Prefill 和 Decode 必須共享同一個高帶寬 RDMA 網絡,被死死綁在同一個機房里

下圖展示了 MiniMax-M2.5 在不同輸入長度下的 KV 吞吐量,可以看到帶寬需求有多恐怖:


MiniMax-M2.5 KV吞吐量

這就導致了一個尷尬局面:你想搞異構推理?可以,但你得把不同類型的芯片塞進同一個 RDMA 集群里。這在運維上極其僵化——你連 Prefill 和 Decode 的硬件比例都沒法靈活調整

混合注意力模型改變了游戲規則

這篇論文指出了一個關鍵的轉折點:新一代的混合注意力架構,正在從根本上改變 KVCache 的大小

什么是混合注意力?簡單說就是在模型里只保留少量的全注意力層(Full Attention),大部分層用線性注意力(Linear Attention)或滑動窗口注意力(SWA)替代。這些層產生的 KVCache 大小是固定的,不會隨輸入長度線性增長

論文里列出了一組最新的混合注意力模型:

模型

架構比例

KV 吞吐量@32K

MiniMax-M2.5(Dense)

全 GQA

~60 Gbps

Qwen3-235B(Dense)

全 MLA

~33 Gbps

Qwen3.5-397B

3:1 線性:全注意力

~8 GbpsMiMo-V2-Flash

5:1 SWA:全注意力

~4.7 GbpsRing-2.5-1T

7:1 線性:全注意力

更低

看到了嗎?從 60 Gbps 直接降到 4.7 Gbps,降了 13 倍!Ring-2.5-1T 更是靠 MLA + 7:1 混合比例實現了約36 倍的 KV 內存節省。

這個數量級的變化意味著:KVCache 終于可以用普通以太網跨數據中心傳了。

但是!光靠模型架構還不夠

論文強調得很清楚:實際工作負載是突發的,請求長度嚴重不均,前綴緩存分布不平衡,跨集群帶寬還會波動。如果傻乎乎地把所有 Prefill 都扔到遠端集群,照樣會擁塞、排隊、利用率低下

模型讓跨數據中心傳輸變得"可能",但要讓它"實用",還需要系統層面的精心設計

PrfaaS 的核心設計

PrfaaS 的架構相當優雅,核心思想是 **"選擇性卸載"**——只把值得的請求送到遠端。

下圖是 PrfaaS-PD 的部署拓撲:


PrfaaS-PD 架構部署圖

整個系統分為三個子系統:

1. 計算子系統

  • PrfaaS 集群:高算力硬件(如 H200),專門處理長上下文 Prefill

  • 本地 PD 集群:常規硬件(如 H20),負責短請求的 Prefill + 所有請求的 Decode

2. 網絡子系統

  • 集群內部:RDMA 高帶寬互聯

  • 集群之間:普通以太網(VPC 對等連接或專線)

3. 存儲子系統:混合前綴緩存池

這個設計很巧妙。混合注意力模型里有兩種不同的 KVCache:

  • 線性注意力層的遞歸狀態:大小固定,只能精確匹配復用

  • 全注意力層的 KVCache:隨長度線性增長,支持前綴部分匹配

混合前綴緩存池架構

PrfaaS 把這兩類 KVCache 分組管理,但共享底層的內存池。緩存塊分為兩類:前綴緩存塊(可跨請求復用)和傳輸緩存塊(傳完即丟)。全局 KVCache 管理器維護所有集群的緩存元數據,調度器據此決定請求路由。

關鍵調度策略:雙時間尺度調度

這是論文最硬核的部分。PrfaaS 的調度器分兩個層面運作:

短期調度:帶寬感知 + 緩存感知路由

設一個長度閾值t,請求的增量 Prefill 長度(去掉緩存命中的前綴后)超過t的,發到 PrfaaS 集群;不超過的,留在本地 PD 集群處理。

為什么這樣做?因為短請求的 Prefill 通常是內存瓶頸(不是計算瓶頸),送到高算力集群反而浪費;而且短請求的 KV 吞吐量相對更高,會更快吃滿跨集群帶寬。

調度器還會實時監控 PrfaaS 集群的出口鏈路利用率和隊列深度:

  • 帶寬緊張時:各集群的前綴緩存獨立評估,盡量減少跨集群傳輸

  • 帶寬充裕時:全局最優緩存匹配,甚至允許跨集群緩存遷移

長期調度:流量驅動的資源再分配

本地 PD 集群內的 Prefill/Decode 實例比例可以動態調整。當流量模式變化時,調度器會重新計算最優的Np/Nd比例和路由閾值t

實驗結果:54% 吞吐量提升

論文用內部一個 1T 參數的混合架構模型(基于 Kimi Linear 架構,3:1 KDA:MLA 層比例)做了案例研究。

硬件配置:

  • PrfaaS 集群:32 個 H200 GPU(高算力,專跑長上下文 Prefill)

  • 本地 PD 集群:64 個 H20 GPU(常規 PD 模式,800 Gbps RDMA)

  • 跨集群帶寬:約 100 Gbps VPC 網絡

  • 對比基線:96 個 H20 GPU 的同構 PD 集群

工作負載:

  • 輸入長度:截斷對數正態分布,均值約 27K tokens,范圍 128~128K

  • 輸出長度:固定 1024 tokens

  • SLO:40 tokens/s

下圖展示了最優參數搜索過程——找到最佳的 Prefill/Decode 分配比和路由閾值:


參數搜索過程路由閾值搜索

最優配置:

  • 路由閾值 t = 19.4K tokens

  • 本地 PD 集群:3 個 Prefill 實例 + 5 個 Decode 實例

  • 約 50% 的請求(長請求)被卸載到 PrfaaS 集群

核心結果:

指標

PrfaaS-PD

同構 PD

樸素異構 PD

吞吐量提升

基準

低 54%

低 32%

P90 TTFT

基準

高 64%

跨集群帶寬消耗

13 Gbps

不適用

更高

最讓我驚艷的數字:PrfaaS 集群的平均出口帶寬僅 13 Gbps,只占 100 Gbps 以太網鏈路的 13%。這說明混合注意力模型的 KVCache 跨數據中心傳輸不僅可行,而且還有巨大的余量!

而樸素異構方案(不做選擇性卸載,所有 Prefill 都扔到 H200)只提升了 16% 吞吐量,被 PrfaaS-PD 的 54% 遠遠甩在身后。這充分說明了調度策略的重要性——光有異構硬件不夠,得有聰明的調度。

對未來的影響

這篇論文背后的信號非常明確:

1. 模型架構正在重塑推理系統設計

Kimi Linear、Qwen3.5、MiMo-V2-Flash、Ring-2.5-1T……新一代模型幾乎都在走混合注意力路線。KVCache 的急劇縮小,讓跨數據中心推理從"不可能"變成了"值得優化"。

2. 硬件專用化趨勢加速

NVIDIA 的 Rubin CPX 專攻 Prefill 吞吐,Groq 的 LPU 專攻 Decode 帶寬,Taalas HC1 主打超高內存帶寬。PrfaaS 架構讓這些異構硬件可以各自獨立部署、獨立擴縮容,不用硬塞進同一個 RDMA 集群。

3. 大規模部署的成本優化空間巨大

論文指出,即使是萬卡級別的部署,PrfaaS 集群的跨數據中心帶寬需求也就在 Tbps 量級,現代數據中心完全能承載。這意味著企業可以在算力便宜的地方部署 Prefill 集群,在離用戶近的地方部署 Decode 集群。

總結

這篇論文的核心洞察其實很簡單:下一代模型的 KVCache 夠小了,小到可以跨數據中心傳輸了。但光"夠小"還不行,還需要選擇性卸載、帶寬感知調度、緩存感知路由這一套系統設計配合。模型架構和系統設計雙管齊下,才能讓跨數據中心的異構推理真正落地。

作為 Mooncake 的延續之作,這篇論文繼續體現了 Moonshot AI 在推理系統領域的深厚積累。而且論文明確提到了跟 vLLM、SGLang 的合作,說明這些想法很可能會逐步落地到開源推理框架中。

制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
2026年廣東高考成績正式公布時間!

2026年廣東高考成績正式公布時間!

馬蹄燙嘴說美食
2026-06-17 17:06:44
40歲佛得角門將漲粉千萬,中國球迷到訪家中:母親手捧鮮花,表妹身穿哥哥球衣合影

40歲佛得角門將漲粉千萬,中國球迷到訪家中:母親手捧鮮花,表妹身穿哥哥球衣合影

極目新聞
2026-06-17 20:49:49
重慶30年老面館招牌上的“高”字是“被迫”加的,老板:以前不懂商標,打官司沒要回

重慶30年老面館招牌上的“高”字是“被迫”加的,老板:以前不懂商標,打官司沒要回

瀟湘晨報
2026-06-17 23:25:16
我給省長當秘書對外只說會開車,和老婆去同學聚會,被嫌棄寒酸

我給省長當秘書對外只說會開車,和老婆去同學聚會,被嫌棄寒酸

曉悅流年
2026-06-16 17:47:41
SpaceX華人女孩刷屏!沒有碩博學位,6年從火箭小白到飛行操作員

SpaceX華人女孩刷屏!沒有碩博學位,6年從火箭小白到飛行操作員

量子位
2026-06-16 14:41:42
30多家法院集體引用一部“空氣法”:這不是荒唐劇,是恐怖片

30多家法院集體引用一部“空氣法”:這不是荒唐劇,是恐怖片

迷世書童H9527
2026-04-25 14:15:25
6月17日凌晨,WTT爆大冷!世界冠軍被絕殺 國乒6將大勝

6月17日凌晨,WTT爆大冷!世界冠軍被絕殺 國乒6將大勝

阿振觀點
2026-06-17 09:02:14
卡拉斯弄巧成拙?德法推動改革,歐外長被架空,下一步就是失業

卡拉斯弄巧成拙?德法推動改革,歐外長被架空,下一步就是失業

賣櫻桃的大丸子
2026-06-16 20:08:52
向佐痛斥父母網曝弟弟!致向佑患心病、婚后無收入、有家卻回不了

向佐痛斥父母網曝弟弟!致向佑患心病、婚后無收入、有家卻回不了

看盡落塵花q
2026-06-17 14:26:17
今年端午是"兇日",掛艾草別亂掛!謹記:1不掛、2不采、3注意

今年端午是"兇日",掛艾草別亂掛!謹記:1不掛、2不采、3注意

歷史人文2
2026-06-17 20:30:03
離開東方甄選活不下去?曾經跟著董宇輝的明明如今帶貨榜直接反超

離開東方甄選活不下去?曾經跟著董宇輝的明明如今帶貨榜直接反超

情感大頭說說
2026-06-18 01:10:50
炸裂!OpenAI財報泄密:去年虧了2600億

炸裂!OpenAI財報泄密:去年虧了2600億

智東西
2026-06-17 09:15:16
伊朗戰后重建第一張請柬,沒給中國和俄羅斯,為何偏偏遞給日本?

伊朗戰后重建第一張請柬,沒給中國和俄羅斯,為何偏偏遞給日本?

卷史
2026-06-06 14:00:21
有人問,若是國民黨當年贏了,老蔣統治中國,那中國的未來會如何

有人問,若是國民黨當年贏了,老蔣統治中國,那中國的未來會如何

浩渺青史
2026-04-27 17:06:59
學生:一斤鹽巴和一斤白糖混一塊兒,怎么能分開?學生犯了難。食堂大媽路過:這有啥難的,找群螞蟻,搬完剩下的就是鹽!

學生:一斤鹽巴和一斤白糖混一塊兒,怎么能分開?學生犯了難。食堂大媽路過:這有啥難的,找群螞蟻,搬完剩下的就是鹽!

LULU生活家
2026-06-08 19:04:27
世界杯開幕3天,曝3大荒唐事,中國球迷遭殃,就連大使館也發聲

世界杯開幕3天,曝3大荒唐事,中國球迷遭殃,就連大使館也發聲

安珈使者啊
2026-06-17 11:41:13
鐮田大地:格拉斯納教會了我踢6號位,他的戰術也適合日本隊

鐮田大地:格拉斯納教會了我踢6號位,他的戰術也適合日本隊

懂球帝
2026-06-17 15:58:52
哈里NBA座位風波后續!沒坐第一排,比丟頭銜更讓梅根火大

哈里NBA座位風波后續!沒坐第一排,比丟頭銜更讓梅根火大

全球奇趣娛樂八卦
2026-06-17 05:45:08
全世界會發現,伊朗戰爭打完后,世界只剩下一個超級大國了!

全世界會發現,伊朗戰爭打完后,世界只剩下一個超級大國了!

史行途
2026-06-17 12:00:53
猝死去世的人越來越多?醫生再三強調:寧可吃豬肉,也別做這8事

猝死去世的人越來越多?醫生再三強調:寧可吃豬肉,也別做這8事

健康之光
2026-06-17 19:20:05
2026-06-18 01:52:49
Ai學習的老章 incentive-icons
Ai學習的老章
Ai學習的老章
3435文章數 11165關注度
往期回顧 全部

科技要聞

馬斯克好友長文:他最可怕的,是這套方法論

頭條要聞

美媒:馬克龍想借中國在G7制衡美國 跟特朗普討價還價

頭條要聞

美媒:馬克龍想借中國在G7制衡美國 跟特朗普討價還價

體育要聞

梅西帽子戲法:紀錄厚重,球王輕盈

娛樂要聞

陳紅一反常態保持沉默

財經要聞

拉加德警告:AI可能引爆下一場金融危機

汽車要聞

23.99萬起 比亞迪大唐帶2+2+3大七座掀桌子 這才是中國大家庭夢中情車!

態度原創

時尚
教育
親子
藝術
公開課

1分鐘1萬塊:我在飯圈,交易人性

教育要聞

全國31省藝術類志愿填報時間匯總!最早6月24日開報,這些省份最緊迫!

親子要聞

為什么兒科要單獨一個科室,網友:兒童醫生不亞于半個獸醫

藝術要聞

235米!曼谷地標“金字塔”動工,BIG操刀

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版