/記得星標我/
比大部分人早一步看見未來
大模型訓練正式進入萬卡、十萬卡規模化時代,算力競爭的核心邏輯已經發生根本性轉變。單純堆疊GPU芯片不再是集群性能的決勝因素,高速互聯網絡的質量,才是決定整體算力利用率、模型訓練速度、集群穩定性的關鍵瓶頸。
行業實測數據顯示,稠密大模型訓練的通信耗時占比超過30%,MoE稀疏模型通信占比更是突破50%,網絡微小抖動、延遲波動、偶然丟包,都會造成大規模GPU空轉等待,直接導致集群算力利用率大幅下滑。
在行業長期深陷進口IB價格高昂、RoCE大規模不穩的兩難格局下,中科曙光scaleFabric全棧自研國產IB已實現批量出貨與大規模商用落地,憑借原生無損RDMA架構,徹底打破傳統技術路線桎梏,成為當前萬卡、十萬卡智算集群的最優組網選擇。
![]()
萬卡時代網絡困局:兩條傳統路線均存在致命短板
萬卡級超大規模集群依托高頻All-Reduce通信、張量并行、流水線并行等機制完成分布式訓練,數萬GPU實時高頻數據交互,對網絡的延遲、抖動、丟包、帶寬穩定性提出極致要求。任何細微的網絡問題,都會在大規模并行場景中指數級放大,最終拉長訓練周期、浪費巨額算力成本。但長期以來,國內智算集群僅能選擇進口IB或以太網RoCE兩條路線,但就目前看來,二者均無法同時滿足高性能、低成本、高穩定、自主可控的產業化需求。
進口InfiniBand技術成熟、性能領先,但在國內規模化落地過程中,壟斷帶來的成本問題與供應鏈風險愈發突出。成本層面,進口400G IB網卡單價高達數千美元,800G光模塊、高速DAC線纜價格翻倍增長,一套萬卡集群的網絡硬件投入動輒上億元,大幅抬高智算基建門檻。供應鏈層面,高端IB設備被納入出口管制清單,供貨周期普遍拉長至3至6個月,斷供風險持續存在。同時海外廠商長期采用軟硬件捆綁銷售模式,采購高端GPU必須配套采購其網絡設備,企業喪失自主選型與議價能力,國產算力集群建設高度依賴海外供應鏈。
RoCE方案憑借硬件采購成本僅為進口IB一半的優勢,成為國內中小規模集群的主流選擇,適配千卡以下實驗訓練、常規推理等輕量化場景。但該方案屬于以太網補丁式改造,先天架構缺陷無法通過軟件調優根治,一旦集群規模突破千卡、邁向萬卡級別,各類性能問題會集中爆發。對于持續數十天的大模型預訓練任務,一次故障回滾、重啟訓練帶來的算力損耗與時間成本,足以抹平RoCE的硬件價格優勢。除此之外,RoCE運維難度極高,沒有通用適配參數,需要運維團隊根據模型類型、流量特征、集群規模持續迭代水線閾值、擁塞控制、隊列調度等參數,高度依賴資深專家經驗。
國產IB批量商用落地:全棧自研打破性能成本不可能三角
針對行業長期存在的高性能必高價、低成本不穩定、自研方案缺性能的行業痛點,中科曙光歷經三年核心技術攻堅,推出scaleFabric 400G原生無損RDMA高速網絡。目前該產品已實現穩定批量出貨,完成大規模商用交付,實現從底層112G PAM4 SerDes IP、交換芯片、高速網卡,到驅動程序、全網管理軟件的全棧自研,徹底擺脫海外技術依賴,在國內率先實現國際級性能、RoCE級成本、全鏈路自主可控的三重突破,徹底打破高速網絡行業的不可能三角。
我們先來看技術架構層面,scaleFabric對標國際主流NDR技術標準,采用先進ADC-DSP架構,針對性解決超高速長距傳輸的信號衰減、噪聲干擾、信號失真等核心難題。
在信號優化方面,自研電感峰化補償技術搭配FFE/DFE聯合均衡算法,有效補償PCB鏈路、高速線纜帶來的高頻信號損耗,保障跨節點、長距離傳輸的信號完整性。
在抗干擾方面,搭載反射補償與噪聲白化DSP算法,精準抵消鏈路阻抗不匹配產生的信號反射,將不規則有色噪聲均勻化處理,大幅降低系統誤碼率,適配機房復雜電磁環境與布線工況。
在穩定性保障方面,通過高性能LDO電源凈化設計,過濾電源紋波與電壓波動,為高速信號處理、時鐘系統提供穩定供電,從硬件底層筑牢傳輸穩定性。相較于RoCE的被動流控機制,scaleFabric沿用原生IB信用流控機制,傳輸前校驗接收端緩沖區資源,先確認后發送,從根源杜絕丟包與緩沖區溢出問題,無需依賴PFC調控,徹底規避大規模集群的PFC風暴風險。最終實現260納秒交換機轉發時延、0.9微秒端到端通信時延,核心性能全面對標國際一線產品。
再來看看實地應用的表現,目前scaleFabric已在國家超算互聯網鄭州核心節點深度部署,支撐三套萬卡級超算集群穩定運行。依托極簡自研架構優勢,整套3萬卡規模集群從設備上電、組網調試到業務全線開通,僅耗時36小時,相較于RoCE集群數周的調優周期,部署效率提升十倍以上,大幅縮短大型智算集群建設周期。
截至目前,該商用節點已穩定運行超10個月,累計承載十萬級AI訓練、超算仿真作業,全程無網絡故障、無訓練中斷、無大規模算力閑置,完全適配7×24小時不間斷高強度算力調度需求。
在集群擴展能力上,scaleFabric突破傳統IB規模上限,單子網可支持11.4萬卡集群擴展,是傳統進口IB的2.33倍,可無縫適配未來十萬卡級超大規模智算集群迭代升級。同時產品端口密度較行業主流提升25%,單芯片支持80個400G端口或40個800G端口,高集成度有效減少交換機、光模塊、高速線纜用量,精簡組網架構,降低硬件堆疊帶來的運維壓力與能耗損耗。
批量出貨帶來的規模化效應,徹底重構了行業高速網絡的成本體系。相較于同規格進口IB設備,scaleFabric整體組網成本降低30%以上,硬件建設成本與國產高端RoCE方案完全持平,徹底改寫了國產高速網絡高價小眾的固有認知。
規模化商用價值:性能、穩定性、自主可控全方位升級
scaleFabric批量交付落地,不只是單一產品的商業化落地,更是國產高端高速網絡產業的里程碑突破。長期以來,國內萬卡級高端智算網絡被海外廠商壟斷,國產方案始終無法兼顧性能、穩定性與安全性。scaleFabric的規模化應用,徹底填補國產原生無損RDMA網絡的技術空白,從性能表現、運行穩定性、供應鏈安全三大維度,解決制約國產AI算力規模化發展的核心瓶頸。
在性能層面,完美適配高端算力場景極致需求。大模型預訓練、氣象仿真、流體力學、AI for Science等高端場景,對網絡延遲一致性、帶寬穩定性、傳輸精度要求極高,微小的網絡波動都會直接影響模型收斂速度與仿真結果精度。scaleFabric依托原生RDMA架構,無需CPU內核調度介入,實現硬件級直接內存傳輸,延遲更低、抖動更小。在大規模All-Reduce高頻通信場景中,能夠有效縮短梯度同步耗時,加速模型迭代收斂。實測數據顯示,同等GPU配置與訓練任務下,scaleFabric集群的訓練吞吐與收斂速度較RoCE集群提升15%以上,長期訓練累積的效率優勢顯著,可有效縮短訓練周期、降低算力能耗成本。
在穩定性層面,原生架構適配超大規模長期運行。區別于RoCE后天改造的模擬無損機制,scaleFabric從協議底層規避PFC風暴、網絡死鎖、路由震蕩等高頻故障,網絡穩定性不會隨集群規模擴張衰減。在數萬卡高并發、高負載極端工況下,性能平滑下降,不會出現RoCE式斷崖式崩盤。同時搭載自研鏈路質量診斷與快速自愈系統,可全網實時監測鏈路狀態、精準定位故障節點,毫秒級完成路由切換與故障修復,全程無需人工干預,實現即插即用、長期免維護,完美適配超大規模集群不間斷運行需求。
在安全層面,全棧自研筑牢算力基建底座。當前高端算力設備出口管制持續收緊,算力基礎設施自主可控已成為國家戰略剛需。以往國產高端集群依賴進口IB設備,不僅成本高昂,更面臨斷供、技術封鎖、生態綁定等風險。scaleFabric實現芯片IP、硬件設備、軟件棧全鏈路國產自研,無海外核心技術依賴,穩定批量供貨的能力,徹底打破海外壟斷,擺脫卡脖子困境。同時產品深度適配國產CPU、國產GPU、國產加速卡等全品類自研算力硬件,全面兼容國產算力生態,為東數西算、超算互聯網等國家級算力工程提供安全可控、可迭代的高速網絡底座。
在生態層面,極低遷移門檻助力行業普及。行業對國產自研產品的核心顧慮集中在兼容性差、遷移成本高、生態不完善。scaleFabric完全兼容國際標準IB協議,PyTorch、TensorFlow、NCCL、OpenMPI等主流AI框架與通信庫無需代碼修改即可無縫遷移,原有業務、模型、運維習慣完全復用,大幅降低替換成本。同時中科曙光聯合科大訊飛、中興通訊等數十家產業鏈企業,依托光合組織成立高速網絡專項工作組,持續推進國產高速網絡標準制定、場景適配與技術迭代,構建完整國產化產業生態,推動國產IB從可用向好用、規模化可用升級。
- 04 -
行業選型邏輯重構:國產IB成為萬卡集群最優解
scaleFabric的成熟商用與批量落地,徹底重構了國內智算集群的網絡選型邏輯。過去行業只能在“高價穩定的進口IB”和“低價不穩的RoCE”之間被動取舍,二元對立的選型困境長期制約國內算力基建高質量發展。如今國產IB的技術成熟與規模化落地,打破了固有矛盾,形成了適配不同集群規模、不同業務場景的科學化選型體系,實現性能、成本、穩定性、安全性的全方位平衡。
從細分場景來看,100卡以下小型實驗、推理集群,業務并發壓力小、網絡故障風險低,RoCE的低成本優勢依然適用,可作為優先選型。100至500卡中型混合業務集群,可采用“前端RoCE+后端國產IB”的混合組網模式,兼顧前端業務的兼容性與后端核心訓練的高穩定、低時延需求。
對于500卡以上大型集群,尤其是萬卡、十萬卡級大模型訓練、高性能計算核心場景,國產IB已是行業唯一最優解。此類場景對網絡無損傳輸、超低時延、長期穩定性存在剛性需求,RoCE的架構缺陷會被無限放大,無法支撐長期穩定訓練;進口IB則存在高昂成本與供應鏈安全隱患。而scaleFabric憑借持平RoCE的成本、對標國際的性能、自主可控的供應鏈與成熟的商用落地經驗,成為超大規模智算集群的無可替代的組網方案。
站在行業發展視角,AI大模型規模化迭代已成必然趨勢,智算集群正向十萬卡級別快速演進,高速網絡將取代單純算力堆疊,成為決定集群算力釋放能力的核心核心要素。中科曙光scaleFabric的批量商用,不僅實現了國產高速網絡的跨越式技術突破,更重新定義了超大規模智算集群的性價比標準與選型規則。
![]()
依托全棧自研技術、十萬級作業驗證的穩定性、普惠化成本優勢與自主安全的供應鏈體系,國產IB徹底改寫了國內高端智算網絡的市場格局。未來,隨著技術持續迭代、產業生態不斷完善,國產IB將成為超大規模智算集群的主流組網方案,持續賦能國產大模型研發、高端科學計算與全國一體化算力網絡建設,助力國內算力產業實現高水平科技自立自強。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.