![]()
新智元報道
![]()
【新智元導(dǎo)讀】GPU一塊沒加,代碼一行沒改,僅靠重構(gòu)組網(wǎng)架構(gòu)就讓推理集群多擠出15%的算力!中美大模型廠商不約而同押注同一個判斷:網(wǎng)絡(luò),才是AI基礎(chǔ)設(shè)施的下一個主戰(zhàn)場。
Vibe Coding太火了!
幾乎所有人都一夜之間進(jìn)入了「說人話就寫代碼」的新紀(jì)元。
問題來了,如何打造更極致的算力支持?
有人開始對網(wǎng)絡(luò)動刀了。
就在本月,OpenAI聯(lián)合NVIDIA、AMD、Intel、Microsoft、Broadcom五大巨頭發(fā)布了MRC(Multipath Reliable Connection)網(wǎng)絡(luò)協(xié)議,已部署在其最大規(guī)模的GB200超算集群上。
![]()
國內(nèi)這邊,智譜聯(lián)合馭馴網(wǎng)絡(luò)與清華大學(xué),在GLM-5.1線上生產(chǎn)集群中完成了新一代組網(wǎng)架構(gòu)ZCube的規(guī)模化落地——GPU一塊沒加,服務(wù)器一臺沒換,代碼一行沒改,推理吞吐直接多了15%!
![]()
更加夸張的是,交換機(jī)和光模塊的硬件成本還砍掉了三分之一。
而且集群規(guī)模越大,這個優(yōu)勢越猛。萬卡級別的集群,光網(wǎng)絡(luò)硬件就能省下2.1億到6.4億元。
提出并在真實生產(chǎn)環(huán)境中驗證這項技術(shù)的,是中國團(tuán)隊。
ZCube架構(gòu)發(fā)表于網(wǎng)絡(luò)領(lǐng)域最頂級學(xué)術(shù)會議ACM SIGCOMM 2025,被評價為「significantly change the way we think about and understand networking」——顯著改變整個行業(yè)對網(wǎng)絡(luò)的認(rèn)知方式。
![]()
地址:https://z.ai/blog/zcube
一月之間,國內(nèi)外一個在協(xié)議層發(fā)力,一個在架構(gòu)層動刀。殊途同歸,指向同一個判斷:網(wǎng)絡(luò),已經(jīng)成為超大規(guī)模AI基礎(chǔ)設(shè)施的下一個主戰(zhàn)場。
ZCube:推翻二十年的
「堆交換機(jī)」邏輯
過去幾年,AI基礎(chǔ)設(shè)施的軍備競賽只有一個維度:堆GPU。
更多、更快、更猛。
但當(dāng)推理集群規(guī)模突破千卡、萬卡,一個反直覺的現(xiàn)象開始出現(xiàn)——GPU的利用率不升反降。
原因很簡單:大模型推理不是單兵作戰(zhàn),是協(xié)同打仗。
每處理一個用戶請求,集群中的GPU需要高頻、大量地互相傳遞中間數(shù)據(jù)(尤其是KV Cache)。
隨著Prefill(處理輸入)與Decode(生成輸出)分離部署成為主流,數(shù)據(jù)在GPU之間的流向變得高度動態(tài)、不對稱——有的鏈路擠滿數(shù)據(jù),有的鏈路空空如也。
智譜的線上實測數(shù)據(jù)給出了量化證據(jù):在一個32卡規(guī)模的推理服務(wù)上做控制變量實驗,僅把網(wǎng)絡(luò)帶寬從100Gbps提升到200Gbps,推理吞吐就提升了約19%,首Token響應(yīng)時延下降了約22%。
![]()
![]()
而且這個規(guī)律隨著集群規(guī)模擴(kuò)大,會越來越顯著——GPU的性能天花板,其實是被網(wǎng)絡(luò)「鎖住」的。
過去二十多年,全球數(shù)據(jù)中心普遍采用Fat-Tree / Clos架構(gòu)組網(wǎng)。
這套方案的核心思路非常樸素:多層交換機(jī)一層一層堆上去,規(guī)模不夠就加層。
互聯(lián)網(wǎng)流量時代,這套邏輯運(yùn)行良好。AI訓(xùn)練集群里,也基本夠用。
但大模型推理是一種全新的流量模式。
在PD分離部署場景中,Prefill節(jié)點(diǎn)和Decode節(jié)點(diǎn)之間需要頻繁傳遞KV Cache,不同請求的長度千變?nèi)f化,數(shù)據(jù)流向毫無規(guī)律。
傳統(tǒng)Clos架構(gòu)面對這種流量時,一個結(jié)構(gòu)性的死穴暴露了出來:流量會被拓?fù)潢P(guān)系天然地推向同幾臺交換機(jī)和同幾條鏈路,形成熱點(diǎn)堆積、隊列反壓、鏈路擁塞。
![]()
ROFT架構(gòu)中,Leaf交換機(jī)之間容易出現(xiàn)流量負(fù)載不均
這是路網(wǎng)設(shè)計本身的問題。
ZCube的做法,簡單說就是三個字:拆掉它。
設(shè)計的精妙之處在于:全網(wǎng)任意兩張GPU之間,有且僅有一條最優(yōu)路徑。沒有多路徑選路的沖突,沒有「車流擠到同一個路口」的結(jié)構(gòu)性隱患。
擁塞不是被控制了,而是從架構(gòu)層面大幅降低了結(jié)構(gòu)性擁塞產(chǎn)生的概率。
打個比方:傳統(tǒng)Clos是給一座已經(jīng)堵死的城市裝更多紅綠燈;ZCube是重新規(guī)劃了整張路網(wǎng),讓每輛車都有自己專屬的最優(yōu)路線——從源頭上大幅減少了堵車的可能。
![]()
更值得關(guān)注的是網(wǎng)絡(luò)直徑。
ZCube的網(wǎng)絡(luò)直徑僅為2跳,全網(wǎng)GPU經(jīng)過兩臺交換機(jī)即可互達(dá),介于一層組網(wǎng)(1跳,規(guī)模受限)和傳統(tǒng)二層組網(wǎng)(3跳,延遲高)之間——兼顧了低延遲與高擴(kuò)展性。
硬件不換,代碼不改,吞吐多15%
理論再漂亮,要看真刀真槍的生產(chǎn)數(shù)據(jù)。
智譜在運(yùn)行GLM-5.1 Coding推理服務(wù)的千卡集群中,將原本部署的ROFT(Rail Optimized Fat-Tree)網(wǎng)絡(luò)架構(gòu)直接升級為ZCube。
這次改造并不是簡單的「換根網(wǎng)線」——ZCube取消了傳統(tǒng)Clos的Spine層,原有的布線模式、IP編址策略、路由策略和交換機(jī)配置全部無法復(fù)用,需要從頭設(shè)計。
馭馴網(wǎng)絡(luò)團(tuán)隊為此開發(fā)了ZCube控制器、機(jī)房布局設(shè)計工具和連線正確性檢測程序等一整套自動化工具,才在極短時間內(nèi)完成了大規(guī)模生產(chǎn)集群的改造。
控制變量極其干凈:GPU型號不變、軟件棧不變、業(yè)務(wù)代碼一行不改,唯一的區(qū)別就是組網(wǎng)架構(gòu)。
結(jié)果是這樣的:
GPU平均推理吞吐提升15%以上——同樣的硬件,每秒多服務(wù)15%的用戶請求
TTFT P99(首Token尾延遲)下降40.6%——用戶等待的「」最壞情況「」大幅改善
交換機(jī)與光模塊硬件成本減少三分之一——花更少的錢,反而跑得更快
![]()
![]()
在當(dāng)前算力緊缺、推理需求持續(xù)暴增的背景下,同樣一堆硬件憑空多擠出15%的產(chǎn)能,這哪里是「優(yōu)化」,這是「存量資產(chǎn)的效率重估」!
目前,該ZCube集群已在GLM-5.1 coding推理服務(wù)中穩(wěn)定運(yùn)行超過兩周。
MRC vs ZCube
回到開頭提到的MRC。
OpenAI聯(lián)合五大芯片與云計算巨頭發(fā)布的這套協(xié)議,本質(zhì)上是一種多路徑并發(fā)傳輸方案。
MRC和ZCube的關(guān)系,可以用一個比喻說清楚:
MRC優(yōu)化的是「交通規(guī)則」——車已經(jīng)上路了,通過更聰明的調(diào)度讓車流更均勻,遇到事故能瞬間繞行。它在協(xié)議層發(fā)力,解決的是「已經(jīng)出現(xiàn)擁塞后怎么辦」。
ZCube重新規(guī)劃的是「路網(wǎng)本身」——從拓?fù)湓O(shè)計上降低擁塞產(chǎn)生的概率,讓每輛車都有唯一最優(yōu)路線,從源頭減少擁塞出現(xiàn)的機(jī)會。它在架構(gòu)層動刀,解決的是「為什么會出現(xiàn)擁塞」。
前者是治病,后者是防病。技術(shù)路線不同,但雙方同時在這個月發(fā)力,傳遞的信號高度一致:算力軍備競賽的下半場,不再只是比誰的GPU多,而是比誰能讓這些GPU真正跑起來。
值得一提的是,MRC的發(fā)布還推動了另一個行業(yè)趨勢:以太網(wǎng)正在加速替代InfiniBand成為AI集群的主流網(wǎng)絡(luò)選擇。
分析機(jī)構(gòu)Dell'Oro Group的數(shù)據(jù)顯示,2025年以太網(wǎng)在AI后端網(wǎng)絡(luò)中的銷售額和出貨量已經(jīng)全面超越InfiniBand。
![]()
MRC作為開放協(xié)議通過OCP發(fā)布,NVIDIA、AMD、Broadcom等廠商的800Gb/s網(wǎng)卡均已原生支持。
這意味著整個AI網(wǎng)絡(luò)生態(tài)正在從封閉走向開放,從單一供應(yīng)商走向多元競爭。
對于資本市場而言,這兩大事件密集釋放的信號同樣值得關(guān)注:未來超大規(guī)模AI集群的組網(wǎng)采購邏輯將發(fā)生結(jié)構(gòu)性變化——對高端交換機(jī)的需求將向「更少層級、更大端口密度」演進(jìn),對光模塊的需求將向更高速率集中。
800G光模塊、高密度以太網(wǎng)交換機(jī)相關(guān)產(chǎn)業(yè)鏈,有望迎來新一輪需求釋放。
ZCube的擴(kuò)展能力:一層交換機(jī),連接數(shù)萬GPU
ZCube還有一個被低估的特性:擴(kuò)展性。
以當(dāng)前主流配置計算(一層容量51.2T的交換機(jī),128個400Gbps端口),ZCube僅用一層Leaf交換機(jī)就能構(gòu)建連接16384塊400Gbps網(wǎng)卡的完全連接網(wǎng)絡(luò)。
如果使用更高容量的交換機(jī),或者將ZCube網(wǎng)絡(luò)劃分為更多平面,可支持?jǐn)?shù)萬甚至數(shù)十萬塊GPU互聯(lián)——仍然只需要一層交換機(jī)。
規(guī)模越大,ZCube相比傳統(tǒng)架構(gòu)省下的交換機(jī)和光模塊就越多,性能優(yōu)勢也越明顯——這是一條規(guī)模越大、越劃算的曲線。
從「堆算力」到「挖效率」
過去幾年,大模型行業(yè)最大的共識是Scaling Law——堆更多數(shù)據(jù)、更多算力、更大參數(shù),模型就會更強(qiáng)。這個邏輯催生了萬卡集群的軍備競賽。
但在2026年,一個新的共識正在浮現(xiàn):與其無限堆GPU,不如讓現(xiàn)有的GPU跑得更順。
ZCube的實踐證明,僅僅通過網(wǎng)絡(luò)架構(gòu)層面的系統(tǒng)性創(chuàng)新,就能在不增加任何GPU的前提下,撬動15%的推理吞吐提升。
隨著推理規(guī)模繼續(xù)向十萬卡邁進(jìn),網(wǎng)絡(luò)瓶頸只會隨集群規(guī)模指數(shù)級加劇,而扁平化架構(gòu)的優(yōu)勢也將同步放大。
更深層的變化在于:網(wǎng)絡(luò)設(shè)計正在從「通用互聯(lián)」走向「模型流量驅(qū)動的系統(tǒng)協(xié)同」。
網(wǎng)絡(luò)不再只是連接GPU的底層管道,而正在升級為提升Token生產(chǎn)效率、系統(tǒng)穩(wěn)定性和成本效率的核心能力。
智譜表示,未來將繼續(xù)面向更大規(guī)模推理與訓(xùn)練集群探索新型智算網(wǎng)絡(luò)架構(gòu)。OpenAI的MRC也在持續(xù)迭代,其規(guī)格已通過OCP開放,正在成為行業(yè)基礎(chǔ)標(biāo)準(zhǔn)。
一場關(guān)于AI基礎(chǔ)設(shè)施底層架構(gòu)的重構(gòu),正在全球范圍內(nèi)同步展開。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.