網易首頁 > 網易號 > 正文申請入駐

為何光電路交換正成為AI數據中心的核心剛需

2026-05-11 08:03:33　來源: TechSugar

上海舉報

分享至

（本文編譯自Electronic Design）

就在不久之前，AI集群的擴容方式，還只是新增數百顆加速器，并相應調整周邊網絡架構。如今，這套模式早已脫離現實。現階段，AI集群普遍搭載數萬塊GPU，頂級超大規模系統正朝著數十萬GPU的規模演進。

在此等體量之下，網絡成為決定系統整體性能的核心關鍵。

真正的瓶頸源自架構層面。目前絕大多數數據中心，依舊沿用胖樹、克洛斯拓撲等多層級電交換架構。這類架構適配傳統隨機性業務負載，曾發揮極佳效用。

而AI訓練工作負載的表現則截然不同。

訓練過程中，加速器群組之間會產生穩定且海量的東西向橫向流量，且各運算節點在訓練全流程中必須保持時序同步。數據每經過一次電交換機轉發，都會產生延遲；每一次光電、電光轉換，都會造成額外功耗損耗。

伴隨集群規模持續擴張，網絡數據傳輸能耗，已從常規運營細節，轉變為核心設計約束條件。在大型AI部署場景中，網絡設備功耗在整體能耗占比中愈發突出。

行業由此開始直面深層架構難題：海量數據流是否必須經過多層報文處理環節？大規模算力資源之間，能否搭建更高效的直連互聯模式？

光電路交換當下的核心價值

光電路交換（OCS）為大型網絡搭建提供了全新底層思路（圖1）。該技術摒棄逐一分組、多級轉發的傳統模式，可在各終端節點之間建立專屬直達光鏈路。鏈路建立完成后，數據可持續高速傳輸，全程無需反復報文檢測與數據緩存。

對于人工智能訓練任務而言，這一點尤為重要。訓練作業需要傳輸海量數據，且相關數據會以可預測的模式重復傳輸數千次。網絡無需逐一對沿途每個數據包進行處理，而是可以在任務運行期間建立專用傳輸通道，并在負載發生變化時重新配置鏈路。此舉能夠提升帶寬利用率、降低網絡超額訂閱比例，并顯著減少單位比特的能耗。

光電路交換并非新興技術。早在二十一世紀初，業界就已對其開展大量研究，彼時大多依托MEMS反射鏡陣列實現光纖端口之間的光路調控。但這類系統存在諸多實用問題，難以大規模普及。機械結構復雜導致端口數量受限，制造成本高昂，長期運行可靠性也存在隱患。與此同時，電交換技術持續高速迭代優化，光電路交換因此長期局限于小眾應用場景。

過去數年間，行業環境已發生多重轉變。人工智能基礎設施的規模突破臨界門檻，訓練負載的通信特征開始對現有網絡形成巨大壓力。功耗問題也從日常運營層面的考量，升級為頂層架構設計的硬性約束。更為關鍵的是，固態光束操控技術日趨成熟，曾經阻礙光電路交換落地應用的各類現實難題，如今已具備解決條件。

多重因素疊加，讓光電路交換重回行業視野，且其在整體架構中承擔的作用，遠超最初的設計定位。

重新考量基數與網絡規模

數十年來，數據中心網絡架構的設計，長期受制于交換芯片的性能上限。單顆ASIC僅能承載固定數量的端口，如32端口、64端口乃至128端口，更大規模的網絡只能通過堆疊設備、搭建分層多級架構實現。系統規模越大，網絡層級就越多。基于超表面的固態可編程光學等新興技術，正在打破這一固有設計邏輯，解鎖全新架構方案。

當交換架構的端口規模從數百級提升至數千級，網絡設計邏輯將徹底改變，多層級的復雜架構不再是必然選擇，大型集群的整體架構得以趨于扁平化。

大端口規格的交換域能夠減少數據轉發跳數，有效降低傳輸延遲。在部分場景下，整套層級的數據包處理架構甚至可以被精簡移除。現階段依靠精細化流量調度緩解的超額訂閱問題，未來可直接通過交換架構本身實現優化解決。

在中小型部署場景中，集成256×256端口的緊湊型光交換機可直接部署于機柜層級，實現機柜內部連接動態可調，依托軟件即可根據負載需求靈活重組加速器集群。而在超大規模場景下，萬端口級別的巨型光交換域，可作為大型人工智能集群的可重構核心骨干網絡。

這類技術升級不局限于帶寬的小幅提升，更為大規模網絡建設提供了全新設計思路。

瓶頸正在轉移

業界探討光網絡基建時，往往聚焦插入損耗與鏈路預算等指標。這類指標固然關鍵，但當前制約人工智能基礎設施發展的核心瓶頸，正逐步發生轉變。

光模塊收發技術迭代提速，共封裝光學器件與下一代可插拔光模塊持續提升鏈路傳輸效率，弱化電信號傳輸距離受限問題。隨著鏈路層級能效持續優化，行業關注重心自然向上轉移至系統上層架構設計。

隨著能效持續提升，核心問題轉變為：

交換域的實際可實現規模上限能達到多少？
網絡連接適配負載部署的調整速度有多快？
網絡層級的實際必要數量為多少？
裁撤冗余的數據包處理層級，能夠節約多少功耗？

固態可編程光學技術，尤其是基于超表面光束操控的技術，可直接解答上述問題。該類設備無機械運動部件，光路由電子控制，相比早期機械式系統，具備更高的可靠性與可擴展性。

同樣關鍵的是，網絡連接模式可通過軟件自定義并動態重配。無需部署固定拓撲結構并被動適配后續業務負載，網絡架構能夠靈活適配算力資源的實際調用方式。

光電路交換在現實網絡中的應用定位

在現有設計中，光電路交換并不會取代分組網絡，而是對其形成互補。

電交換機依舊負責短時數據流、控制流量以及所有需要精細化路由調度的業務；光電路則承載人工智能訓練場景中占比最高的海量、持續化數據傳輸。

由此形成混合網絡架構，大規模數據流可繞過擁塞的分組處理層級，同時保留原有控制平面完整運行。光電路可與集群調度器、軟件定義網絡控制器協同聯動，實現網絡連接隨負載部署動態調整。

調度、網絡與光學技術的融合，折射出基礎設施設計的整體變革趨勢。網絡開始主動適配業務負載與應用運行特征，不再依賴靜態固化的設計邏輯。

光電路技術發展展望

光電路交換技術的理論研究已有數十年，真正改變行業格局的，是當下對該技術產生剛需的超大規模系統。

伴隨AI集群不斷擴容，業界開始重新審視沿用已久的網絡架構設計理念。曾經不切實際的大端口基數方案，現已納入實際系統設計的討論范疇；以往必不可少的網絡層級，也有望迎來形態革新甚至精簡移除。

未來的AI數據中心，將擺脫僵化的多級電交換架構，轉變為靈活可變的光交換域，網絡連接將隨算力資源協同演進，而非對算力發展形成制約。

在此架構下，網絡升級為可隨負載運行特征動態調整的基礎設施層。光電路交換不再只是一種具備參考價值的備選架構，正逐步成為超大型AI系統互聯的底層基礎架構。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.