![]()
編輯|冷貓
在 AI 發展的歷程中,我們仍在經歷一個野蠻生長的階段:規模,就是一切。
這條路確實管用。從千卡到萬卡,算力規模的躍升支撐了大模型從 GPT-4 到 DeepSeek V4、GLM-5 的一路狂飆。
不過我們都忽略了一個現實,在 GPU 硬件規模達到一定程度的時候,將算力相連的鏈路就成了不能忽視的性能變量。
2026 年 5 月 5 日,OpenAI 聯合 NVIDIA、AMD、Intel、Microsoft、Broadcom 五家巨頭,通過開放計算項目(OCP)向全行業發布了 MRC(Multipath Reliable Connection)協議。這是一種專為超大規模 AI 集群設計的網絡傳輸協議,已部署在 OpenAI 最大的 NVIDIA GB200 超算集群中,用于訓練 ChatGPT 等前沿模型。
![]()
- 技術博客鏈接:https://openai.com/index/mrc-supercomputer-networking/
MRC 的核心思路是:將數據傳輸分散到數百條路徑上并發傳輸,在微秒級繞過鏈路故障,從根本上解決大規模 GPU 集群的網絡通信瓶頸。
而就在剛剛,智譜率先在 GLM-5.1 線上生產集群中完成了新一代組網架構 ZCube 的規模化落地。
ZCube 發表于網絡領域頂會ACM SIGCOMM 2025,被評價為「significantly change the way we think about and understand networking/顯著改變整個行業對網絡認知方式」。這是該技術首次大規模運用于生產推理集群中,智譜聯合馭馴網絡與負責網絡架構升級和優化工作,組網架構優化基于銳捷網絡交換機。
![]()
- 論文標題:From ATOP to ZCube: Automated Topology OptimizationPipeline and A Highly Cost-Effective Network Topology for LargeModel Training
- 論文鏈接:https://dl.acm.org/doi/epdf/10.1145/3718958.3750503
- 技術博客:https://z.ai/blog/zcube
新一代組網架構下,在不新增任何 GPU、不修改任何應用代碼的前提下,集群推理吞吐提升了 15%,首 Token 響應的尾延遲(TTFT P99)下降了 40.6%,交換機與光模塊硬件成本減少了三分之一
不加一塊GPU,算力瞬間多出15%。或許,在擴大 GPU 規模之外:網絡,已經成為超大規模 AI 基礎設施的下一個主戰場。
ZCube 技術解讀:架構層面消除擁塞
推理時代的流量,和訓練時代截然不同
傳統互聯網時代的數據中心流量是「統計均勻」的。數據中心普遍采用的 Fat-Tree / Clos 架構正是基于這一假設設計的:通過多層交換機堆疊來擴展規模,依賴 ECMP(等價多路徑路由)在多條路徑間分配流量,效果不錯。AI 訓練集群也基本沿用了這套架構,因為訓練階段的通信模式相對固定和規整。
但大模型推理帶來了一種全新的流量范式。隨著 Prefill(處理用戶輸入上下文)與 Decode(逐 Token 生成輸出)分離部署成為主流,集群內部的數據傳輸呈現出高度的動態不對稱性。Prefill 節點處理輸入上下文,Decode 節點負責持續生成 Token,兩類節點之間需要頻繁傳遞 KV Cache。不同請求的上下文長度差異可達數十倍,處理時間隨之變化,KV Cache 數據在 GPU 之間的流向幾乎毫無規律可循。
![]()
ROFT架構中,Leaf交換機之間容易出現流量負載不均
在采用傳統 ROFT 架構的集群中,同一臺機器上不同網卡承擔的 KV Cache 傳輸負載差異巨大。這種源-目的不對稱性讓 ROFT 的 rail 映射不再天然等價于負載均衡,反而容易把流量集中推向少數 Leaf 交換機和鏈路。
![]()
同一臺機器不同網卡的 KV Cache 傳輸負載差異圖
問題的根源在于,Clos / ROFT 架構對推理流量產生了一類特殊的擁塞,智譜在技術報告中將其明確區分為兩類:
- 不可避免的擁塞:例如多個 GPU 同時向同一目的地發送數據,在最后一跳鏈路上必然產生競爭。這類擁塞是物理規律決定的,通常依賴擁塞控制、流量整形等機制來緩解。
- 可避免的擁塞:由拓撲結構和流量映射方式導致,流量被拓撲關系天然地推向同幾臺交換機和同幾條鏈路,即使總帶寬充足,也會形成局部熱點。某些 Leaf 交換機的部分出口隊列深度持續高位,頻繁觸發 PFC(Priority Flow Control)反壓,進一步將擁塞從局部擴散到整條鏈路,放大尾時延、壓低整體吞吐。這類擁塞的本質是架構設計問題,靠調參和協議優化都無法根治。
![]()
兩類網絡擁塞示意圖
過去,業界應對網絡擁塞的主流思路集中在協議層:自適應路由(adaptive routing)、包噴灑(packet spraying),乃至 OpenAI 剛發布的 MRC,本質上都是在擁塞發生后做補救或繞行。
ZCube 選擇了從架構層面消除第二類擁塞產生的根源,讓它「不該發生的就不發生」。
ZCube 的三重設計邏輯
從 ZCube 組網架構圖來看,該架構打破了 Clos 架構中層次化堆疊交換機的傳統組網思路,設計了一種完全扁平的方式進行 GPU 服務器互聯。
![]()
ZCube架構相比ROFT架構可以有效避免結構性網絡擁塞
![]()
文中視頻鏈接:https://mp.weixin.qq.com/s/Tf_ZJ5f_Ur00mofWuIBZZQ
第一層:取消分層,全網扁平化。傳統 Clos 架構由 Spine 層和 Leaf 層組成,數據在 GPU 之間傳輸需要「上行到 Spine,再下行到 Leaf」,跨層轉發本身就引入了額外延遲和擁塞風險。ZCube 取消了 Spine 層交換機,將所有 Leaf 交換機按序號奇偶分為兩組,兩組之間采用完全二部圖互聯(即每臺奇數交換機與所有偶數交換機相連)。這意味著全網 GPU 僅經過兩臺交換機即可互達,網絡直徑為 2 跳,介于單層交換機組網(1 跳,規模受限)和雙層 Clos(3 跳,延遲高)之間。
第二層:單軌 + 多軌混合接入,實現理想負載均衡。這是 ZCube 最精妙的設計。每張 GPU 網卡擁有兩個端口,分別以兩種截然不同的方式接入兩組交換機:第一個端口采用「多軌」方式,即相同編號的 GPU 連接到同一臺奇數交換機;第二個端口采用「單軌」方式,即連續編號的 GPU 連接到同一臺偶數交換機。
這種「一張網卡,兩種接法」的拓撲設計帶來了一個關鍵特性:全網任意兩張 GPU 之間有且僅有一條最優路徑。多路徑選路是傳統架構擁塞的重要來源,因為多條路徑意味著負載均衡策略需要做選擇,選擇就可能出錯,就可能導致流量集中。ZCube 用唯一路徑消除了這一不確定性。
用更直白的話說:在 ROFT 架構下會在交換機之間發生沖突的流量,在 ZCube 架構下可以獨享整條網絡路徑。
第三層:更低成本,更強擴展性,更高容錯。ZCube 在實現性能提升的同時,反而降低了硬件成本。由于取消了 Spine 層,在相同集群規模下,ZCube 比 Clos / ROFT 架構減少約三分之一的交換機和光模塊。
擴展性方面同樣表現出色。以當前主流的 400Gb/s 網絡配置計算,ZCube 僅用一層交換機即可構建連接 16384 張 GPU 的扁平網絡。而傳統 ROFT 架構要實現同等規模,需要三層交換機。如果采用下一代 102.4Tbps 交換機和四端口 ConnectX-8 網卡,ZCube 可支持的 GPU 規模更可達 65536 張
容錯性方面也有優勢。由于 ZCube 全網 GPU 之間不存在硬性隔離平面,在給定鏈路故障率下,GPU 對不可達的概率比傳統雙平面 Clos 網絡低 50% 以上。
![]()
ZCube架構下流量負載均衡示意圖
傳統 Clos 架構像一座多層立交橋系統,車流需要頻繁上下匝道,高峰期特定匝道必然擁堵,且立交橋的某一層出故障會影響大量通行。ZCube 則像一張經過精密數學優化的平面路網,每輛車都有一條唯一的最短路徑直達目的地,任何路段的車流量都被均勻分攤,從規劃層面消除了擁堵發生的條件。
實驗:同樣的硬件,多出 15% 的算力
ZCube 真正引人注目的是它已經在智譜千卡級 GLM-5.1 coding 推理集群中完成了完整的生產驗證。
實驗設置非常干凈:GPU 型號不變、軟件棧不變、業務代碼不變,唯一的變量是將傳統 ROFT 架構替換為 ZCube。結果如下:
- 推理吞吐提升 15% 以上:同樣的硬件投入,每秒多響應 15% 的 API 請求
- TTFT P99 下降 40.6%:首 Token 響應的尾延遲大幅降低,用戶體感更流暢
- 交換機與光模塊成本減少三分之一:在萬卡規模集群中,僅網絡硬件一項即可節省投資約 2.1 億至 6.4 億元
![]()
更關鍵的是,這項升級的邊際成本很低,純粹是組網架構的替換。當 GPU 供應持續緊張、價格居高不下時,一種不依賴硬件堆疊就能顯著提升系統效率的方案,其產業價值不言而喻。
AI 基礎設施的價值重心正在遷移
ZCube 的落地與 OpenAI MRC 協議的發布,放在 2026 年 AI 基礎設施的大背景下審視,它們共同指向一個更深層的行業拐點:AI 基礎設施的價值重心,正在從「算力」向「系統效率」遷移。
讓 GPU 跑得更好
過去三年,大模型公司的基礎設施策略可以用一個字概括:買。搶 GPU、搶算力卡、搶機柜、甚至搶能源。這套邏輯在模型從零到一的階段是成立的,算力規模直接決定了能訓練多大的模型、能支撐多少用戶。
但到了現在,這個邏輯開始遇到阻力。
第一,GPU 的供應仍然緊張。盡管英偉達持續擴產,但需求增速遠超供給,尤其是高端推理卡的交付周期依然以季度計。第二,算力采購的經濟模型正在惡化。GPU 價格居高不下,而大模型 API 的定價競爭日趨激烈,Token 單價持續走低,毛利空間被兩端擠壓。第三,單純堆 GPU 的邊際收益在遞減。當集群規模從千卡擴展到萬卡,新增 GPU 的算力并不能被線性釋放。
在這一趨勢下,OpenAI 的 MRC 和智譜的 ZCube 代表了協議層和架構層的兩條互補的技術路徑。兩者高度互補,當推理集群規模繼續向十萬卡甚至更大規模演進時,這種「架構層無擁塞 + 協議層強容錯」的組合或許將成為標配。
產業鏈的結構性變化
英偉達 2019 年以 69 億美元收購 Mellanox,將 InfiniBand 納入自己的 AI 算力版圖。之后,數據中心網絡市場幾乎被 InfiniBand 壟斷了 AI 場景的高端需求。
在行業發展到一個新階段后,多重力量正在打破這一格局。
超以太網聯盟(UEC)標準快速推進,從協議層面為以太網補齊了 AI 場景所需的低延遲和高可靠能力。
此外,據 TrendForce 研究報告,全球 AI 專用光收發模塊市場已進入高速成長階段,全球 AI 光收發模塊市場預計從 2025 年的 165 億美元增至 2026 年的 260 億美元,增幅超過 57%。國金證券研報指出,隨著推理需求驅動算力從通用 GPU 向專用 ASIC 演進,ASIC 芯片在網絡接口設計上天然傾向于采用開放的以太網標準,也在推動網絡架構從專有協議向開放標準遷移。
ZCube 的出現進一步加速了這一進程。它對交換機層級的要求從傳統的三層降低到了一層,對高端 Spine 交換機的依賴大幅降低,轉而對 Leaf 交換機的端口密度提出了更高要求。
這意味著集群組網的采購邏輯將發生結構性變化:需求從「少量高端交換機 + 大量中端交換機」的金字塔結構,轉向「大量高密度交換機 + 更高速光模塊」的扁平結構。
尾聲
網絡架構創新的投入產出比,可能遠超大多數人的直覺。
在 GPU 價格高企、算力供給偏緊的大環境下,多數公司的注意力仍然集中在「如何獲得更多 GPU」上。但 ZCube 用真實的生產數據證明,在 GPU 資源不變的前提下,純粹通過網絡架構升級就能釋放 15% 的額外算力,同時節省三分之一的網絡成本。如果將這一比例外推到萬卡甚至十萬卡規模,網絡優化所釋放的價值將遠超一般認知。
網絡瓶頸還具有一個被廣泛低估的特性:它隨集群規模指數級加劇。集群規模翻倍,GPU 間通信的復雜度可能增長數倍,擁塞發生的概率和影響也同步放大。這意味著 ZCube 這類架構級創新的價值,將隨著推理集群的持續擴張而加速顯現。
對于正在加速擴建 AI 基礎設施的云廠商、模型公司與智算中心而言,這或許是一個重新審視組網方案的關鍵時刻。AI 算力競賽的下半場,勝負可能取決于那張「看不見的網」。
https://www.trendforce.cn/presscenter/news/20260420-13018.html
https://news.qq.com/rain/a/20260413A03IX100
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.