C114訊 5月29日消息(蔣均牧)隨著AI算力的瓶頸從芯片內部轉向芯片之間,光網絡在AI集群中的價值正在被重估。在5月28日于上海舉行的“x”PO賦能AI數據中心光互連論壇上,百度光網絡架構師萬昳系統解析了AI集群三大場景對光網絡的需求。
她指出,Scaling Law已從堆參數量轉向提升效率,混合專家模型帶來海量All-to-All通信,推理場景的KV Cache規模膨脹使時延成為關鍵指標。面對通信墻的轉移,Scale-Out、Scale-Up、Scale-Across三層網絡各自面臨不同的光技術課題,銅與光的邊界需根據總成本最優原則重新劃定,而NPO、CPO、TFLN、空芯光纖等多項技術正在不同維度上展開探索。
![]()
英偉達近期接連宣布與康寧、Coherent、Lumentum簽署總額超70億美元的光互聯合作協議,光連接從配角走向主角的信號已足夠清晰。LightCounting預測,2026年全球光模塊市場仍將保持約60%增速,至2031年市場規模逼近600億美元。百度作為國內AI基礎設施的重要建設者,其對光網絡的需求研判和技術路線選擇,值得產業界深入關注。
Scale-Out:從三層到兩層,光模塊速率迭代周期縮短
在發言中,萬昳首先回顧了Scale-Out網絡的演進軌跡。傳統DCN采用接入、匯聚、核心三層架構,適用于以南北向流量為主的CPU時代。AI集群的流量特征已發生根本性變化:東西向流量占比超過80%,且對延遲極度敏感。產業追求的方向是將架構壓縮至兩層以內,甚至探索單層“大平層”方案,以最短跳數完成GPU間數據傳輸,同時迅速地擴展規模、將Token的成本降到最低。
這一架構演進的物理基礎在于交換節點速率的加速迭代。過去芯片制程和芯片研發遵循兩到三年翻倍的摩爾定律周期,如今節奏明顯提速,已壓縮至一年半甚至更短。
光互聯層面,增量主要集中在AI集群(HPN)場景。萬昳指出,通算領域從40G到400G的各速率等級生命周期相對較長,增量有限;但在基于51.2T和102.4T交換節點的AI集群中,400G、800G乃至1.6T光模塊存在巨大增量。同時,400G/800G大量采用Break Out方式拆分為多通道,目的是以更低成本接入更多計算節點,平滑演進。
Scale-Up:銅光共存,NPO代表更長遠方向
Scale-Up網絡的定義是一個“超級資源池”——所有GPU共享內存池,通過類總線網絡實現極低時延的數據交換。萬昳強調,這一區域內絕大多數路徑是唯一的,節點發生故障時沒有備用路徑可選。因此Scale-Up對鏈路穩定性和信號完整性的要求,遠超普通通信網絡。
在Scale-Up互聯方案中,銅與光的選擇是業界爭論的焦點。萬昳給出了明確原則:能用銅的地方盡可能用銅,無論無源銅纜還是有源銅纜;必要用光時,毫不猶豫地上光。她列舉了銅纜的現實工程難題:阻隔散熱影響氣流、布線難度大、信號完整性受電磁干擾。相比之下,光纖柔軟、不受干擾、布線靈活。但最終選用哪種介質,取決于應用場景,以及總體成本最低。
百度在Scale-Up域內正積極評估多種光方案。LRO兼容性較好且具有時延上的優勢,同時因保留可插拔形態對運維友好,被寄望于超節點中批量應用。NPO則代表更長遠方向,是向全光互聯演進的重要一步,萬昳希望借此實現“XPU直接出光”,無需經過多路轉換,只要光纖通達即可直連上層交換節點。其價值還在于前面板布局的優化——當光模塊數量急劇增加時,前面板的散熱和布線已成為物理層面的瓶頸,NPO通過減少可插拔形態的存在,為更高密度的端口部署創造了條件。
此外,她還提到了一個重要的工程理念:BOX設計和光模塊的分離時代正在結束,未來在系統設計初期就必須把芯片能力、光能力、光網絡能力進行綜合設計,在D1階段即達到最優表現。而在運維層面,百度的思路是將NPO做成整機可插拔形態,前提是光的失效率必須低于電芯片。
Scale-Across與前沿探索:從DCI到AI超級工廠的跨越
當AI集群突破單個數據中心園區的物理邊界,Scale-Across便成為必然選擇。萬昳透露,百度自一年前便已開始在多個機房中部署跨DCI的數萬卡集群互聯,通過幾十公里傳輸鏈路將分布在不同位置的GPU連接起來。
Scale-Across的核心訴求是:極高的帶寬、可控的時延與沖突、無損傳輸。傳統DCI設備雖能滿足技術指標,但成本過高,如何在高帶寬與低成本之間取得平衡,是百度當前探索的重點。萬昳特別強調,無損傳輸不僅依賴光傳輸設備,更需要與交換網絡聯合設計,以實現端到端的系統最優。
在三到五年的技術展望上,萬昳梳理了百度重點關注的方向:CPO方面,百度已與部分廠商深入交流,落地需要時間,但小批量測試可先行啟動。400G及更高速率上,硅光和TFLN(薄膜鈮酸鋰)是兩條主路線,今年業內已在400G硅光上取得突破,TFLN則需關注國內生態鏈成熟度和良率。Coherent-Lite是Scale-Across跨域互聯的重點方向,u-LED面向Scale-Up短距互聯極具潛力,空芯光纖則因超低延遲特性受到關注,百度也愿意聯合產業界共同嘗試。
AI集群對光連接的需求已從“帶寬夠不夠”演變為架構、成本、延遲、運維的系統性考量。正如萬昳在演講結尾所言,光產業鏈在AI集群建設中有大量可做的事情,這對于整個產業都將是非常好的機會。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.