在AI大模型持續演進與科學計算需求快速增長的背景下,算力產業正從單點芯片性能競爭,轉向圍繞系統能力邊界展開的新一輪躍遷。近日,在第二屆浦江AI學術年會上,由上海人工智能實驗室DeepLink團隊牽頭的《超節點技術體系白皮書》(以下簡稱“白皮書”)正式發布。DeepLink團隊聯合8所頂尖高校、16家核心產業伙伴達成了階段性產業共識,覆蓋芯片研發、芯片產業鏈、算力部署、軟件適配、學術研究、行業應用等全產業鏈環節,是目前市面上參與最廣泛、內容最全面的產業共識性成果,真正實現了“全行業發聲、全維度共建”。
![]()
隨著大模型預訓練、后訓練、測試擴展及Agent應用等新范式持續推高算力需求,算力短缺與算力利用率低下的雙重痛點日益凸顯。數據顯示,過去5年預訓練所需算力增長約3000倍,而同期單芯片算力僅增長約16倍,單純依靠單芯片性能提升已難以突破產業發展瓶頸,算力競爭的焦點已從“芯片參數”轉向“系統能力的有效組織與穩定兌現”。在此背景下,超節點作為追求算力增長的極致系統工程路徑,其核心價值不在于硬件的簡單堆疊,而在于通過高帶寬、低時延、低抖動的受控系統域,整合通信、遠端訪存、協同調度等關鍵能力,將理論算力潛力轉化為真實場景中可交付的有效產出(Goodput),這也是白皮書重點破解的核心命題。
在內容組織上,白皮書從架構分析、軟件系統、建模仿真、參考設計和未來演進五大維度全面展開,形成了完整的技術體系梳理:既深入梳理超節點形成的技術背景與演進邏輯,解讀當前Scale-up架構成為算力突破關鍵的行業趨勢;也詳細探討統一內存訪問、通信庫、編程模型、RAS可靠性體系和訓練推理工程等軟件兌現路徑,回應行業對“軟硬協同”的核心需求;既通過建模仿真將系統邊界、真實交付與未來演進納入統一坐標系,也結合產業現狀推出五類超節點參考構型,涵蓋總線全對等互聯、以太全對等互聯等標準構型,以及Dragonfly、3DTorus和大環路加分布式OCS等前沿構型,適配不同產業階段、不同負載特征和不同供應鏈條件下的設計取舍,為產業落地提供直接參考。相較于當前行業內部分聚焦單一互聯技術、單一硬件方案的相關成果,本白皮書全面覆蓋超節點從理論到實踐、從硬件到軟件、從現狀到未來的全維度內容,為不同領域的參與者提供了清晰的行動指引。
![]()
白皮書推動形成“技術共識—實踐驗證—迭代優化”的良性循環,為超節點技術發展提供了可討論、可驗證、可持續演進的系統工程框架,推動算力產業從“單點突破”走向“系統躍遷”,為AI與科學計算發展夯實基礎。發布現場強調,白皮書的發布只是起點,而非終點。上海AI實驗室特向全行業發出誠摯邀約,歡迎更多高校、科研機構、產業伙伴、技術從業者加入白皮書的內容建設中來,共同豐富內容體系、驗證技術方案、完善參考設計、推動標準落地,讓白皮書持續迭代升級,真正成為引領超節點技術發展、支撐產業高質量發展的核心指南。
![]()
面向未來,隨著AI技術與科學計算的深度融合,超節點將成為AI時代的核心計算單元,其技術演進與產業落地將深刻影響算力產業的發展格局。相信在全行業的共同參與和協同發力下,超節點技術將持續突破能力邊界,推動算力基礎設施實現跨越式發展,為通用人工智能的到來筑牢根基。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.