網易首頁 > 網易號 > 正文申請入駐

國產超算生成式壓縮模型訓練性能突破2.16 EFLOP/s

2026-05-28 18:26:49　來源: 機器之心Pro

天津舉報

分享至

清華大學張金瀟、中山大學董潤敏、清華大學深圳國際研究生院吳羲勇為本文共同第一作者。清華大學深圳國際研究生院付昊桓教授和中山大學人工智能學院副教授董潤敏為本文通訊作者。付昊桓教授于 2016 年、2017 年和 2021 年三次獲得國際高性能計算應用領域最高獎 “戈登?貝爾” 獎。作為負責人承擔國家自然科學基金委交叉學部杰出青年基金項目、科技部重點研發計劃項目等，并于 2025 年獲評為 IEEE Fellow。

隨著全球遙感衛星持續運行，地球觀測數據正在快速增長。多源、多時相、多光譜遙感影像為國土監測、生態評估、災害預警、氣候變化研究等任務提供了重要數據基礎，但也帶來了顯著的存儲、傳輸和計算壓力。對于長期連續觀測形成的全球遙感影像檔案，傳統壓縮方法主要面向像素級冗余消除，難以充分利用地表目標在地理位置、時間變化和光譜響應上的長期規律。

近日，來自清華大學、中山大學、新加坡國立大學、國家超級計算深圳中心等單位的研究團隊提出面向全球地球觀測數據的生成式壓縮框架 D2AR，并在靈晟超級計算機上完成 Exascale 級訓練。

論文：《Transforming the Use of Earth Observation Data: Exascale Training of a Generative Compression Model with Historical Priors for up to 10,000x Data Reduction》
論文地址：https://arxiv.org/abs/2605.08633

用歷史先驗重構極端壓縮數據

D2AR 的核心思路是將地球觀測數據壓縮從傳統的 “單張圖像冗余消除” 推進到 “歷史先驗建模與生成式重建”。與普通視覺圖像不同，遙感數據是在多年尺度上對同一個地球系統的持續觀測。地理位置、季節周期、地表覆蓋、城市結構和多光譜響應之間存在長期規律，這些規律可以被大規模生成式模型學習，并用于極低碼率條件下的數據恢復。

在框架設計上，D2AR 采用 Dual-Decoupled Asymmetric Compression and Reconstruction 思路，將前端壓縮與后端重建解耦。前端只保留極少量關鍵表征，將多源遙感數據壓縮為中間比特流，并映射為控制 token；后端則將控制 token 與地理位置、觀測時間等條件信息注入生成式重建模型，在統一的多光譜潛空間中恢復觀測數據。

這一設計的關鍵在于，壓縮器不再承擔完整重建任務，而是只負責提取極低碼率下的控制信息。真正的重建能力來自后端生成式模型對全球歷史遙感數據的學習。D2AR 基于 EQ-VAE 構建統一潛空間，并結合 Flow Matching 逐步恢復遙感影像，使模型能夠利用空間、時間和光譜維度上的歷史規律，提升極端壓縮條件下的重建質量和下游可用性。

面向地球觀測的歷史先驗生成式壓縮框架概覽。（a）算法設計：將全球歷史觀測檔案壓縮為具有地理與時間條件約束的生成式先驗。（b）重建流程：面向下游應用，從壓縮表示中按需恢復觀測數據。（c）系統設計：基于靈晟 Armv9 CPU 超算實現生成式模型的超大規模訓練。

面向層級內存與 NUMA 架構的 CPU 超算訓練優化

為了訓練這一生成式重建模型，研究團隊在靈晟超級計算機上構建了面向大規模遙感生成式模型訓練的軟件系統。靈晟是中國國產 E 級超級計算機系統，近期在國家超級計算深圳中心國產算力應用對接會暨全球樣板點發布會上亮相，其 FP64 精度持續浮點運算性能超過 2EFlops。研究團隊圍繞該國產 Armv9 CPU 架構的計算單元、矩陣擴展、層次化內存和高速互連特點，對并行策略、算子內核、通信后端和運行時調度進行了協同優化，支撐模型在 CPU 超算上高效穩定訓練。

在系統優化方面，團隊針對大模型訓練中的計算、通信和內存瓶頸，設計了層次化并行策略與內存放置機制，并對關鍵算子進行面向國產 CPU 矩陣擴展的優化。同時，通過通信與計算重疊、運行時調度優化和分布式訓練軟件棧適配，降低了大規模訓練中的同步等待和數據搬移開銷。單節點實驗表明，基于 Armv9 LX2 和 SME 的訓練效率已經達到與單張 NVIDIA A100 GPU 相當的水平，并顯著優于支持 AMX 的 Intel Xeon 8558P 平臺，驗證了國產 CPU 架構在大模型訓練中的性能潛力。

Intel Xeon 8558P（支持 AMX）、NVIDIA A100（支持 Tensor Core）和 LX2（支持 SME）平臺上單層運算各模塊的前向和反向延遲。

更重要的是，這套優化能夠擴展到全機規模。在 20,480 個節點的大規模弱擴展實驗中，D2AR-rec-6B 實現了 BFloat16 精度下 1.54 EFLOP/s 端到端持續性能和超過 2.16 EFLOP/s 的訓練峰值性能[1]，展現出良好的弱擴展能力。

對于歷史先驗生成式壓縮而言，這種擴展能力不僅意味著訓練速度提升，也意味著模型能夠納入更大范圍、更長時間跨度的全球歷史觀測數據，從而學習更完整的地球觀測先驗。

系統在三種模型規模下的弱擴展性能。

從極端壓縮走向任務自適應數據服務

從應用角度看，D2AR 并不是簡單減少遙感影像存儲體積，而是嘗試建立一種新的地球觀測數據使用方式：將全球歷史遙感檔案轉化為可調用的生成式先驗，在極低碼率下按需恢復對科學分析有價值的信息。實驗結果表明，D2AR能夠在高達 10000× 的極端壓縮場景下提升重建質量，并在感知質量、結構一致性和 NDVI 等遙感相關指標上取得改進。進一步的下游土地覆蓋分類實驗也顯示，重建數據仍能保留較強的任務效用，說明該方法不僅壓縮倍率高，也能夠支撐后續分析任務。

不同壓縮比下的可視化對比及對應光譜曲線。

這項工作也驗證了國產超算在 AI for Science 場景中的系統支撐能力。通過算法、模型和系統軟件棧的協同設計，國產 CPU 超算不僅能夠支撐傳統科學計算任務，也能夠承載大規模生成式 AI 訓練。對于遙感應用而言，這意味著數據價值不再只取決于 “采得更多、存得更全”，也取決于能否更高效地存儲、傳輸和使用。D2AR 為遙感基礎模型、科學數據智能壓縮和國產高性能計算生態建設提供了新的實踐路徑。

[1] 峰值訓練性能按完整前向與反向傳播的模型計算量及其在全機訓練中的實測執行時間計算，包含運行時調度和 kernel launch 等實際開銷；端到端持續性能則進一步計入數據加載、通信同步和優化器更新等完整訓練流程開銷。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.