中國團(tuán)隊突破瓶頸！不加GPU，萬卡集群算力暴漲15%

2026-05-21 12:50:01　來源: 新智元

北京舉報

分享至

新智元報道

【新智元導(dǎo)讀】GPU一塊沒加，代碼一行沒改，僅靠重構(gòu)組網(wǎng)架構(gòu)就讓推理集群多擠出15%的算力！中美大模型廠商不約而同押注同一個判斷：網(wǎng)絡(luò)，才是AI基礎(chǔ)設(shè)施的下一個主戰(zhàn)場。

Vibe Coding太火了！

幾乎所有人都一夜之間進(jìn)入了「說人話就寫代碼」的新紀(jì)元。

問題來了，如何打造更極致的算力支持？

有人開始對網(wǎng)絡(luò)動刀了。

就在本月，OpenAI聯(lián)合NVIDIA、AMD、Intel、Microsoft、Broadcom五大巨頭發(fā)布了MRC（Multipath Reliable Connection）網(wǎng)絡(luò)協(xié)議，已部署在其最大規(guī)模的GB200超算集群上。

國內(nèi)這邊，智譜聯(lián)合馭馴網(wǎng)絡(luò)與清華大學(xué)，在GLM-5.1線上生產(chǎn)集群中完成了新一代組網(wǎng)架構(gòu)ZCube的規(guī)模化落地——GPU一塊沒加，服務(wù)器一臺沒換，代碼一行沒改，推理吞吐直接多了15%！

更加夸張的是，交換機(jī)和光模塊的硬件成本還砍掉了三分之一。

而且集群規(guī)模越大，這個優(yōu)勢越猛。萬卡級別的集群，光網(wǎng)絡(luò)硬件就能省下2.1億到6.4億元。

提出并在真實生產(chǎn)環(huán)境中驗證這項技術(shù)的，是中國團(tuán)隊。

ZCube架構(gòu)發(fā)表于網(wǎng)絡(luò)領(lǐng)域最頂級學(xué)術(shù)會議ACM SIGCOMM 2025，被評價為「significantly change the way we think about and understand networking」——顯著改變整個行業(yè)對網(wǎng)絡(luò)的認(rèn)知方式。

地址：https://z.ai/blog/zcube

一月之間，國內(nèi)外一個在協(xié)議層發(fā)力，一個在架構(gòu)層動刀。殊途同歸，指向同一個判斷：網(wǎng)絡(luò)，已經(jīng)成為超大規(guī)模AI基礎(chǔ)設(shè)施的下一個主戰(zhàn)場。

ZCube：推翻二十年的

「堆交換機(jī)」邏輯

過去幾年，AI基礎(chǔ)設(shè)施的軍備競賽只有一個維度：堆GPU。

更多、更快、更猛。

但當(dāng)推理集群規(guī)模突破千卡、萬卡，一個反直覺的現(xiàn)象開始出現(xiàn)——GPU的利用率不升反降。

原因很簡單：大模型推理不是單兵作戰(zhàn)，是協(xié)同打仗。

每處理一個用戶請求，集群中的GPU需要高頻、大量地互相傳遞中間數(shù)據(jù)（尤其是KV Cache）。

隨著Prefill（處理輸入）與Decode（生成輸出）分離部署成為主流，數(shù)據(jù)在GPU之間的流向變得高度動態(tài)、不對稱——有的鏈路擠滿數(shù)據(jù)，有的鏈路空空如也。

智譜的線上實測數(shù)據(jù)給出了量化證據(jù)：在一個32卡規(guī)模的推理服務(wù)上做控制變量實驗，僅把網(wǎng)絡(luò)帶寬從100Gbps提升到200Gbps，推理吞吐就提升了約19%，首Token響應(yīng)時延下降了約22%。

而且這個規(guī)律隨著集群規(guī)模擴(kuò)大，會越來越顯著——GPU的性能天花板，其實是被網(wǎng)絡(luò)「鎖住」的。

過去二十多年，全球數(shù)據(jù)中心普遍采用Fat-Tree / Clos架構(gòu)組網(wǎng)。

這套方案的核心思路非常樸素：多層交換機(jī)一層一層堆上去，規(guī)模不夠就加層。

互聯(lián)網(wǎng)流量時代，這套邏輯運(yùn)行良好。AI訓(xùn)練集群里，也基本夠用。

但大模型推理是一種全新的流量模式。

在PD分離部署場景中，Prefill節(jié)點(diǎn)和Decode節(jié)點(diǎn)之間需要頻繁傳遞KV Cache，不同請求的長度千變?nèi)f化，數(shù)據(jù)流向毫無規(guī)律。

傳統(tǒng)Clos架構(gòu)面對這種流量時，一個結(jié)構(gòu)性的死穴暴露了出來：流量會被拓?fù)潢P(guān)系天然地推向同幾臺交換機(jī)和同幾條鏈路，形成熱點(diǎn)堆積、隊列反壓、鏈路擁塞。

ROFT架構(gòu)中，Leaf交換機(jī)之間容易出現(xiàn)流量負(fù)載不均

這是路網(wǎng)設(shè)計本身的問題。

ZCube的做法，簡單說就是三個字：拆掉它。

設(shè)計的精妙之處在于：全網(wǎng)任意兩張GPU之間，有且僅有一條最優(yōu)路徑。沒有多路徑選路的沖突，沒有「車流擠到同一個路口」的結(jié)構(gòu)性隱患。

擁塞不是被控制了，而是從架構(gòu)層面大幅降低了結(jié)構(gòu)性擁塞產(chǎn)生的概率。

打個比方：傳統(tǒng)Clos是給一座已經(jīng)堵死的城市裝更多紅綠燈；ZCube是重新規(guī)劃了整張路網(wǎng)，讓每輛車都有自己專屬的最優(yōu)路線——從源頭上大幅減少了堵車的可能。

更值得關(guān)注的是網(wǎng)絡(luò)直徑。

ZCube的網(wǎng)絡(luò)直徑僅為2跳，全網(wǎng)GPU經(jīng)過兩臺交換機(jī)即可互達(dá)，介于一層組網(wǎng)（1跳，規(guī)模受限）和傳統(tǒng)二層組網(wǎng)（3跳，延遲高）之間——兼顧了低延遲與高擴(kuò)展性。

硬件不換，代碼不改，吞吐多15%

理論再漂亮，要看真刀真槍的生產(chǎn)數(shù)據(jù)。

智譜在運(yùn)行GLM-5.1 Coding推理服務(wù)的千卡集群中，將原本部署的ROFT（Rail Optimized Fat-Tree）網(wǎng)絡(luò)架構(gòu)直接升級為ZCube。

這次改造并不是簡單的「換根網(wǎng)線」——ZCube取消了傳統(tǒng)Clos的Spine層，原有的布線模式、IP編址策略、路由策略和交換機(jī)配置全部無法復(fù)用，需要從頭設(shè)計。

馭馴網(wǎng)絡(luò)團(tuán)隊為此開發(fā)了ZCube控制器、機(jī)房布局設(shè)計工具和連線正確性檢測程序等一整套自動化工具，才在極短時間內(nèi)完成了大規(guī)模生產(chǎn)集群的改造。

控制變量極其干凈：GPU型號不變、軟件棧不變、業(yè)務(wù)代碼一行不改，唯一的區(qū)別就是組網(wǎng)架構(gòu)。

結(jié)果是這樣的：

GPU平均推理吞吐提升15%以上——同樣的硬件，每秒多服務(wù)15%的用戶請求
TTFT P99（首Token尾延遲）下降40.6%——用戶等待的「」最壞情況「」大幅改善
交換機(jī)與光模塊硬件成本減少三分之一——花更少的錢，反而跑得更快

在當(dāng)前算力緊缺、推理需求持續(xù)暴增的背景下，同樣一堆硬件憑空多擠出15%的產(chǎn)能，這哪里是「優(yōu)化」，這是「存量資產(chǎn)的效率重估」！

目前，該ZCube集群已在GLM-5.1 coding推理服務(wù)中穩(wěn)定運(yùn)行超過兩周。

MRC vs ZCube

回到開頭提到的MRC。

OpenAI聯(lián)合五大芯片與云計算巨頭發(fā)布的這套協(xié)議，本質(zhì)上是一種多路徑并發(fā)傳輸方案。

MRC和ZCube的關(guān)系，可以用一個比喻說清楚：

MRC優(yōu)化的是「交通規(guī)則」——車已經(jīng)上路了，通過更聰明的調(diào)度讓車流更均勻，遇到事故能瞬間繞行。它在協(xié)議層發(fā)力，解決的是「已經(jīng)出現(xiàn)擁塞后怎么辦」。

ZCube重新規(guī)劃的是「路網(wǎng)本身」——從拓?fù)湓O(shè)計上降低擁塞產(chǎn)生的概率，讓每輛車都有唯一最優(yōu)路線，從源頭減少擁塞出現(xiàn)的機(jī)會。它在架構(gòu)層動刀，解決的是「為什么會出現(xiàn)擁塞」。

前者是治病，后者是防病。技術(shù)路線不同，但雙方同時在這個月發(fā)力，傳遞的信號高度一致：算力軍備競賽的下半場，不再只是比誰的GPU多，而是比誰能讓這些GPU真正跑起來。

值得一提的是，MRC的發(fā)布還推動了另一個行業(yè)趨勢：以太網(wǎng)正在加速替代InfiniBand成為AI集群的主流網(wǎng)絡(luò)選擇。

分析機(jī)構(gòu)Dell'Oro Group的數(shù)據(jù)顯示，2025年以太網(wǎng)在AI后端網(wǎng)絡(luò)中的銷售額和出貨量已經(jīng)全面超越InfiniBand。

MRC作為開放協(xié)議通過OCP發(fā)布，NVIDIA、AMD、Broadcom等廠商的800Gb/s網(wǎng)卡均已原生支持。

這意味著整個AI網(wǎng)絡(luò)生態(tài)正在從封閉走向開放，從單一供應(yīng)商走向多元競爭。

對于資本市場而言，這兩大事件密集釋放的信號同樣值得關(guān)注：未來超大規(guī)模AI集群的組網(wǎng)采購邏輯將發(fā)生結(jié)構(gòu)性變化——對高端交換機(jī)的需求將向「更少層級、更大端口密度」演進(jìn)，對光模塊的需求將向更高速率集中。

800G光模塊、高密度以太網(wǎng)交換機(jī)相關(guān)產(chǎn)業(yè)鏈，有望迎來新一輪需求釋放。

ZCube的擴(kuò)展能力：一層交換機(jī)，連接數(shù)萬GPU

ZCube還有一個被低估的特性：擴(kuò)展性。

以當(dāng)前主流配置計算（一層容量51.2T的交換機(jī)，128個400Gbps端口），ZCube僅用一層Leaf交換機(jī)就能構(gòu)建連接16384塊400Gbps網(wǎng)卡的完全連接網(wǎng)絡(luò)。

如果使用更高容量的交換機(jī)，或者將ZCube網(wǎng)絡(luò)劃分為更多平面，可支持?jǐn)?shù)萬甚至數(shù)十萬塊GPU互聯(lián)——仍然只需要一層交換機(jī)。

規(guī)模越大，ZCube相比傳統(tǒng)架構(gòu)省下的交換機(jī)和光模塊就越多，性能優(yōu)勢也越明顯——這是一條規(guī)模越大、越劃算的曲線。

從「堆算力」到「挖效率」

過去幾年，大模型行業(yè)最大的共識是Scaling Law——堆更多數(shù)據(jù)、更多算力、更大參數(shù)，模型就會更強(qiáng)。這個邏輯催生了萬卡集群的軍備競賽。

但在2026年，一個新的共識正在浮現(xiàn)：與其無限堆GPU，不如讓現(xiàn)有的GPU跑得更順。

ZCube的實踐證明，僅僅通過網(wǎng)絡(luò)架構(gòu)層面的系統(tǒng)性創(chuàng)新，就能在不增加任何GPU的前提下，撬動15%的推理吞吐提升。

隨著推理規(guī)模繼續(xù)向十萬卡邁進(jìn)，網(wǎng)絡(luò)瓶頸只會隨集群規(guī)模指數(shù)級加劇，而扁平化架構(gòu)的優(yōu)勢也將同步放大。

更深層的變化在于：網(wǎng)絡(luò)設(shè)計正在從「通用互聯(lián)」走向「模型流量驅(qū)動的系統(tǒng)協(xié)同」。

網(wǎng)絡(luò)不再只是連接GPU的底層管道，而正在升級為提升Token生產(chǎn)效率、系統(tǒng)穩(wěn)定性和成本效率的核心能力。

智譜表示，未來將繼續(xù)面向更大規(guī)模推理與訓(xùn)練集群探索新型智算網(wǎng)絡(luò)架構(gòu)。OpenAI的MRC也在持續(xù)迭代，其規(guī)格已通過OCP開放，正在成為行業(yè)基礎(chǔ)標(biāo)準(zhǔn)。

一場關(guān)于AI基礎(chǔ)設(shè)施底層架構(gòu)的重構(gòu)，正在全球范圍內(nèi)同步展開。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.