(本文編譯自Electronic Design)
就在不久之前,AI集群的擴容方式,還只是新增數百顆加速器,并相應調整周邊網絡架構。如今,這套模式早已脫離現實。現階段,AI集群普遍搭載數萬塊GPU,頂級超大規模系統正朝著數十萬GPU的規模演進。
在此等體量之下,網絡成為決定系統整體性能的核心關鍵。
真正的瓶頸源自架構層面。目前絕大多數數據中心,依舊沿用胖樹、克洛斯拓撲等多層級電交換架構。這類架構適配傳統隨機性業務負載,曾發揮極佳效用。
而AI訓練工作負載的表現則截然不同。
訓練過程中,加速器群組之間會產生穩定且海量的東西向橫向流量,且各運算節點在訓練全流程中必須保持時序同步。數據每經過一次電交換機轉發,都會產生延遲;每一次光電、電光轉換,都會造成額外功耗損耗。
伴隨集群規模持續擴張,網絡數據傳輸能耗,已從常規運營細節,轉變為核心設計約束條件。在大型AI部署場景中,網絡設備功耗在整體能耗占比中愈發突出。
行業由此開始直面深層架構難題:海量數據流是否必須經過多層報文處理環節?大規模算力資源之間,能否搭建更高效的直連互聯模式?
光電路交換當下的核心價值
光電路交換(OCS)為大型網絡搭建提供了全新底層思路(圖1)。該技術摒棄逐一分組、多級轉發的傳統模式,可在各終端節點之間建立專屬直達光鏈路。鏈路建立完成后,數據可持續高速傳輸,全程無需反復報文檢測與數據緩存。
![]()
對于人工智能訓練任務而言,這一點尤為重要。訓練作業需要傳輸海量數據,且相關數據會以可預測的模式重復傳輸數千次。網絡無需逐一對沿途每個數據包進行處理,而是可以在任務運行期間建立專用傳輸通道,并在負載發生變化時重新配置鏈路。此舉能夠提升帶寬利用率、降低網絡超額訂閱比例,并顯著減少單位比特的能耗。
光電路交換并非新興技術。早在二十一世紀初,業界就已對其開展大量研究,彼時大多依托MEMS反射鏡陣列實現光纖端口之間的光路調控。但這類系統存在諸多實用問題,難以大規模普及。機械結構復雜導致端口數量受限,制造成本高昂,長期運行可靠性也存在隱患。與此同時,電交換技術持續高速迭代優化,光電路交換因此長期局限于小眾應用場景。
過去數年間,行業環境已發生多重轉變。人工智能基礎設施的規模突破臨界門檻,訓練負載的通信特征開始對現有網絡形成巨大壓力。功耗問題也從日常運營層面的考量,升級為頂層架構設計的硬性約束。更為關鍵的是,固態光束操控技術日趨成熟,曾經阻礙光電路交換落地應用的各類現實難題,如今已具備解決條件。
多重因素疊加,讓光電路交換重回行業視野,且其在整體架構中承擔的作用,遠超最初的設計定位。
重新考量基數與網絡規模
數十年來,數據中心網絡架構的設計,長期受制于交換芯片的性能上限。單顆ASIC僅能承載固定數量的端口,如32端口、64端口乃至128端口,更大規模的網絡只能通過堆疊設備、搭建分層多級架構實現。系統規模越大,網絡層級就越多。基于超表面的固態可編程光學等新興技術,正在打破這一固有設計邏輯,解鎖全新架構方案。
當交換架構的端口規模從數百級提升至數千級,網絡設計邏輯將徹底改變,多層級的復雜架構不再是必然選擇,大型集群的整體架構得以趨于扁平化。
大端口規格的交換域能夠減少數據轉發跳數,有效降低傳輸延遲。在部分場景下,整套層級的數據包處理架構甚至可以被精簡移除。現階段依靠精細化流量調度緩解的超額訂閱問題,未來可直接通過交換架構本身實現優化解決。
在中小型部署場景中,集成256×256端口的緊湊型光交換機可直接部署于機柜層級,實現機柜內部連接動態可調,依托軟件即可根據負載需求靈活重組加速器集群。而在超大規模場景下,萬端口級別的巨型光交換域,可作為大型人工智能集群的可重構核心骨干網絡。
這類技術升級不局限于帶寬的小幅提升,更為大規模網絡建設提供了全新設計思路。
瓶頸正在轉移
業界探討光網絡基建時,往往聚焦插入損耗與鏈路預算等指標。這類指標固然關鍵,但當前制約人工智能基礎設施發展的核心瓶頸,正逐步發生轉變。
光模塊收發技術迭代提速,共封裝光學器件與下一代可插拔光模塊持續提升鏈路傳輸效率,弱化電信號傳輸距離受限問題。隨著鏈路層級能效持續優化,行業關注重心自然向上轉移至系統上層架構設計。
![]()
隨著能效持續提升,核心問題轉變為:
交換域的實際可實現規模上限能達到多少?
網絡連接適配負載部署的調整速度有多快?
網絡層級的實際必要數量為多少?
裁撤冗余的數據包處理層級,能夠節約多少功耗?
固態可編程光學技術,尤其是基于超表面光束操控的技術,可直接解答上述問題。該類設備無機械運動部件,光路由電子控制,相比早期機械式系統,具備更高的可靠性與可擴展性。
同樣關鍵的是,網絡連接模式可通過軟件自定義并動態重配。無需部署固定拓撲結構并被動適配后續業務負載,網絡架構能夠靈活適配算力資源的實際調用方式。
光電路交換在現實網絡中的應用定位
在現有設計中,光電路交換并不會取代分組網絡,而是對其形成互補。
電交換機依舊負責短時數據流、控制流量以及所有需要精細化路由調度的業務;光電路則承載人工智能訓練場景中占比最高的海量、持續化數據傳輸。
由此形成混合網絡架構,大規模數據流可繞過擁塞的分組處理層級,同時保留原有控制平面完整運行。光電路可與集群調度器、軟件定義網絡控制器協同聯動,實現網絡連接隨負載部署動態調整。
調度、網絡與光學技術的融合,折射出基礎設施設計的整體變革趨勢。網絡開始主動適配業務負載與應用運行特征,不再依賴靜態固化的設計邏輯。
光電路技術發展展望
光電路交換技術的理論研究已有數十年,真正改變行業格局的,是當下對該技術產生剛需的超大規模系統。
伴隨AI集群不斷擴容,業界開始重新審視沿用已久的網絡架構設計理念。曾經不切實際的大端口基數方案,現已納入實際系統設計的討論范疇;以往必不可少的網絡層級,也有望迎來形態革新甚至精簡移除。
未來的AI數據中心,將擺脫僵化的多級電交換架構,轉變為靈活可變的光交換域,網絡連接將隨算力資源協同演進,而非對算力發展形成制約。
在此架構下,網絡升級為可隨負載運行特征動態調整的基礎設施層。光電路交換不再只是一種具備參考價值的備選架構,正逐步成為超大型AI系統互聯的底層基礎架構。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.