講真,作為一枚老登網工,我今天有點繃不住了。
中國終于有了真正意義上「自主可控」的IB網絡!
![]()
就在剛剛,中科曙光正式發布首款國產InfiniBand原生無損RDMA高速網絡——scaleFabric。
![]()
這可不是普通發個交換機、出個網卡那么簡單,看完發布會我長出了一口氣:
國產高性能網絡,終于填平了「沒有IB」這個坑。
這是中國智算基礎設施向自主可控邁出的里程碑一步,意味著高性能端到端全棧國產化終于就緒,這一步,真的太關鍵了。
![]()
接下來,我們先看看曙光這次到底發布了什么。
再來聊聊,為什么我會說:這件事,讓我繃不住了。
曙光到底發布了啥
簡單說,曙光這個「scaleFabric」是一套國產IB網絡套裝。
不僅最底層的112G PAM4高速Serdes IP是自研的,構建整套體系最重要的網絡芯片也是自研的,從根上實現自主可控。
![]()
根基牢了,上面就可以衍生出很多不同的網絡設備。
必須給大家來幾張高清大圖,看看咱們國產IB交換機和網卡,顏值也是相當能打。
? 曙光scaleFabric400 2U風冷高速交換機
![]()
風冷版本,40個800Gbps IB網絡端口
? 曙光scaleFabric400 1U液冷高速交換機
![]()
冷板液冷版本,40個800Gbps IB網絡端口
? 曙光scaleFabric400 網卡
![]()
PCIe5.0 400G IB網卡,支持國密安全啟動
好了,產品靚圖和基本規格曬完,咱們講點這些硬邦邦的家伙背后的故事……
為何曙光要啃下這塊硬骨頭
這東西到底干啥的,真有這么重要?
說來話長,大模型這類業務對算力的需求太猛了,很多需求,不光單臺8卡機干不了,連牛哄哄的巨無霸超節點也搞不定。
![]()
單機搞不定,就必須組團,搞成智算集群,甚至要萬卡+集群。
智算集群scale out互聯離不開網絡,要么選IB,要么RoCE,傳統以太網干不了。
![]()
道理大家都懂,但我們面臨兩難選擇:
IB,全稱InfiniBand,這玩意兒誕生快30年了,都沒個中文名。
這是一套專為高性能計算、AI大規模訓推集群設計的互聯體系,主打超低時延、超高帶寬、無需CPU摻和的RDMA通信。
![]()
這IB吧,除了貴基本沒毛病。
但一直以來都是國外N記一家獨大,生態封閉,有很大的供應鏈風險。
![]()
而RoCE呢,選擇面倒是挺寬,主流數通公司都有。
但是RoCE的底層身板不是太好(還是以太網),時延比IB高,也不像IB那么即插即用,比較依賴網卡、交換機、擁塞算法等等的綜合優化。
![]()
如果優化到位,還能跟IB叫板。
如果不到位,實際體驗就和紙面參數有差距,這也是很多不差錢客戶無腦選IB的原因。
![]()
還有一點也很要命,高端的以太網芯片仍然被“C-N-M-B”四大巨頭把持,(比如102.T的方案,只有
Cisco/Nvidia/Marvell/Broadcom具備)。
而且,光搞定交換機/交換芯片還不夠,RoCE的高性能網卡,基本也被N記拿捏著。
![]()
你沒想到吧,國產智算基礎設施,不光GPU被卡,網絡竟然也可能是卡點。
所以,網工出身的我,做夢都在想啥時候咱們也能有整套IB網絡呢。
正做夢呢,這國產IB它竟然就來了。
![]()
曙光一出手,便知有沒有
我真正興奮的是:這一次,我們不光有,而且我們還能對標。
讓我們拿出放大鏡,深扒一下曙光IB全家桶的細節↓
?先看性能
作為服務器側的通信利器,ScaleFabirc400網卡端到端通信時延低至0.9μs。
而作為集群互聯的中樞,ScaleFabric400交換機轉發時延<260ns,與國際頂尖IB產品(N記NDR)性能持平,吊打RoCE網絡。
![]()
下面這組圖是實測數據,包括讀/寫/Send操作的帶寬和延遲表現,藍線是曙光,紅線是N記,完全可以對標,甚至有些指標曙光scaleFabric表現還更好。
![]()
![]()
![]()
![]()
![]()
![]()
在帶寬上,scaleFabric400網卡基于PCIe5.0,端口帶寬400Gbps。
scaleFabric400交換機單端口飆到800Gps,對齊國際頂流,領先國產RoCE方案一到兩代,整機交換容量雙向64Tbps,滿足萬卡集群大吞吐、低時延需求需。
![]()
?再看可靠性
既然是IB,那咱用的就是IB基因里流淌的「基于信用的無損流控機制」。
這種機制就好比“接收端按庫存能力發放配額,發送端按配額發貨”,從而避免緩存打爆、丟包,實現確定的、可靠的傳輸。
![]()
傳統以太網不管這一套,一個勁兒猛發,撐爆了丟包了就重新發。
而改良版的無損以太網引入PFC機制,也是檢測到快撐爆了才會喊停。
![]()
這么說吧,IB的信用流控機制粒度更細,實現真無損網絡,更穩定、無丟包、無PFC風暴風險。
同時,曙光scaleFabirc具備亞毫秒級的鏈路故障快速恢復技術,大模型訓練過程完全無感,而RoCE網絡往往需要秒級恢復。
![]()
在實戰中,曙光scaleFabirc通過高容錯設計,保障大規模集群長期穩定運行,已實現近萬卡驗證規模持續穩定運行超10個月。
![]()
?最后看擴展能力
現在動不動就要萬卡、十萬卡集群,對網絡的擴展性要求極高。
當前市面上的主流IB產品也就能做到單子網4.9萬卡,曙光scaleFabric單個子網支持11.4萬卡規模的集群,同時網絡總成本降低30%。
![]()
如果遇到更大規模的組網場景,scaleFabric可實現跨POD靈活擴展,適配國家超算互聯網、大型智算中心等超大規模算力集群建設。
![]()
曙光這次突破,意義重大
到這里,我特別想說一句話:
![]()
曙光是真投入、真下功夫啊,在國產CPU、GPU、IO芯片、超集群的歷史戰績,咱就先按下不表,單說這次IB網絡的突破。
首先,它打破國外壟斷,補上了國產IB網絡這塊大短板,從芯片到軟件100%自主可控,防卡脖子又添一利器。
![]()
第二,不只是有,還很能打,帶寬、時延、穩定性、擴展性全面對標,智算集群不會被網絡拖后腿。
第三,不光能打,還超有性價比,組網成本比市面IB方案降低約30%,又彌補了RoCE方案在性能和運維上的短板。
![]()
第四,不止支持智算,還支持超算,一網貫通超智融合,避免重復建設兩套體系,該方案在國家超算互聯網核心節點已落地。
![]()
第五,不止自己玩,還能帶動產業。
目前「光合組織AI計算開放架構」下設「AIDC高速網絡工作組」,拉著上下游一起做生態、推標準、搞方案,把國產高性能網絡這條路真正走通。
![]()
讓中國算力,更好地跑在中國網絡上,這波大考,曙光滿分交卷!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.