網易首頁 > 網易號 > 正文申請入駐

昇騰「減負」、鯤鵬「鋪路」：中國計算產業生態如何填平開發者的「踩坑」時代？

2026-05-29 19:52:21　來源: 雷峰網

北京舉報

分享至

一個算力生態從“能用”到“好用易用”，中間隔著什么？

過去幾年，國產AI算力行業長期存在一種割裂：硬件參數不斷刷新，但是當開發者真正落地時，大量時間卻依然消耗在環境配置、異構遷移、算子適配和反復踩坑上。

隨著大模型訓練進入千卡級協同、科學計算走向長周期穩定運行，這種割裂的代價被進一步放大了——開發效率本身，開始成為衡量算力平臺競爭力的重要指標。

在最近的鯤鵬昇騰開發者圓桌上，一個很有意思的現象是，無論是做高性能計算的清華團隊和中科大團隊，還是做大模型預訓練的AIGCode，他們談論最多的，都不是芯片參數，而是開發效率。

有人提到，過去遷移異構平臺往往需要幾個月，現在一周就能完成；有人提到，過去大量時間被消耗在硬件適配、環境配置和反復踩坑上，現在終于能把精力重新放回算法本身；還有人提到，過去很多問題必須等待廠商排期解決，現在開發者自己就能在社區里找到方案，甚至直接參與生態共建。

這些變化看似零散，但背后其實指向同一件事：鯤鵬昇騰生態，正在從“能用”進入“好用易用”的新階段。

衡量“好用易用”的標準，從來不是發布會上的參數表，而是開發者實際感知到的工程摩擦是否正在減小。也正是在這個意義上，這些開發者的體驗，成為觀察國產算力生態演進的一組關鍵樣本。

當算法創新卡在工程的“坑”里

過去幾年，AI行業出現了一個越來越明顯的變化：模型迭代越來越快，決定落地速度的關鍵，正從算法轉向算力基礎設施的工程能力。尤其在高性能計算領域，這種變化被進一步放大。

清華大學地球系統模擬團隊對此深有體會。

他們所做的工作，是用AI替代傳統大氣模擬中的經驗估算環節，把全球大氣模擬分辨率推進至公里級，讓極端天氣的模擬精度真正逼近實用價值。

這個方向的科學價值毋庸置疑，但問題在于：當分辨率提升一個量級之后，背后對應的計算復雜度，往往會呈指數級增長。

大氣模擬本質上是一個超長時間連續積分過程，一次完整計算往往持續數天甚至更久，中間任何一次軟硬件異常，都可能導致整個任務重來。相比互聯網業務里常見的“失敗重試”，科學計算更像是在一根極長的鋼絲上行走——很多任務沒有“回滾重開”的余地。

更復雜的問題來自精度。

一個氣候結果的背后，可能是數億次浮點運算的累計結果。單次誤差或許微不足道，但經過長時間迭代之后，誤差會像滾雪球一樣被不斷放大。

這也是為什么高性能計算領域始終強調混合精度、數值穩定性、通信一致性。

但相比計算本身，更隱蔽的消耗，其實來自工程生態的不成熟

過去很長一段時間里，國內算力生態整體仍處于早期階段，硬件迭代速度遠快于軟件生態成熟速度。很多平臺雖然已經能用，但開發工具鏈、編譯器、異構調度、通信框架以及社區經驗仍不完善，科研團隊很難從一開始就完成系統級優化。

于是，大量團隊只能先讓程序“跑起來”，再進入漫長的適配和調優階段。

這意味著，科學研發與工程優化長期處于割裂狀態：先解決科學問題，再回頭填工程的坑。

代價是巨大的：團隊大量精力被消耗在底層環境適配與反復踩坑上，真正的算法創新卻始終處于一種“排隊等待”的狀態。

鯤鵬如何將開發者從“填坑”里解放出來

"鯤鵬讓科研者的精力回到科研本身，不用在硬件適配上反復踩坑。"這是清華團隊王一鳴對鯤鵬最直接的評價。

這句話背后，其實對應著一種開發理念的轉變：團隊不再遵循“先解決科學問題，再做性能優化”的傳統模式，而是在代碼設計階段就開始將硬件特性、并行方式一并納入考量——科學研發與工程優化，從“前后接力”變成了“并行推進”。

理念轉變的前提，是平臺本身能把“坑”填平。

過去很長時間里，高性能計算平臺最大的難點之一，就是軟件生態的碎片化。很多科研團隊遷移代碼時，耗時往往不在算法，而在底層依賴適配：編譯鏈重配、通信庫重裝、指令集兼容、框架重寫，一層套一層。

而鯤鵬做了一件很關鍵的事情——盡可能保持開發環境的連續性。

王一鳴表示，很多主流氣象軟件和依賴庫在鯤鵬平臺上的兼容度已經很高，“加載幾個庫基本就能跑”，大量代碼不需要大規模重構，就能完成初步遷移。

這種差異，在中科大團隊身上體現得更加明顯。

研究員陳俊仕提到，過去遷移到異構平臺，周期往往以月為單位，遷移完成后還要重新做性能優化，但遷移到鯤鵬平臺，一周左右就能完成。

遷移效率差異的背后，本質上是開發復雜度的差異。

目前主流高性能計算系統采用CPU+GPU異構模式，多套指令集并存，開發者往往需要不斷處理CPU與加速器之間的數據搬運與協同問題。很多時候，一個原本只占較少耗時的CPU函數，在應用遷移到GPU后，可能會迅速成為新的性能瓶頸，開發者不得不反復重構并行邏輯。

而鯤鵬選擇了盡可能降低這種異構復雜性，將更多性能釋放建立在通用計算架構之上。對于開發者而言，變化最直接的一點是：大量原有代碼無需重寫就能直接運行，工作的重心開始從“搬運代碼”重新回到“性能調優”。

這種變化，最終轉化為了更實際的性能收益。

陳俊仕提到，通過構造更大的矩陣塊，并結合NUMA（非同一內存訪問）感知的內存分配策略，團隊的新算法相比傳統方法實現平均40多倍加速，部分場景接近200倍。

而對于氣象科學這類高精度、長周期計算場景，這種“少踩坑”的意義更加明顯。

清華團隊遷移到鯤鵬后，最直觀的感受之一，就是大規模長周期作業的穩定性顯著提升，斷點續跑機制也更加成熟。

此外，鯤鵬還提供了適配主流氣象開發語言的編譯器、數學庫和性能調優工具，讓團隊能夠在一個體系完整、反饋高效的平臺上快速調試參數、驗證模型。當底層計算的可靠性有了保障，研究人員就不再需要反復排查計算誤差的來源，而是能夠把更多精力重新放回模型本身。

社區的成熟度也在同步降低這種開發的阻力。在鯤鵬生態中，大部分常見問題都能從社區資料中找到可復用的經驗；更復雜的問題，社區工程師的響應速度也足夠快，開發者終于不用再長期陷在底層工程細節里。

當開發者不再被硬件適配消耗，性能優化的重心，也開始重新回到算法創新本身。

不過，鯤鵬在做的事情，并不只是解決"當下"的問題。

當AI基礎設施的戰場從"模型訓練"向"Agent規模化落地"遷移，Token與內存消耗、沙箱啟動速度、多Agent協同時的數據安全正在成為Agent進入產業場景之前的新一道"基礎設施門檻"。

鯤鵬超節點架構的設計，恰好為這一趨勢提供了系統級支持。基于靈衢互聯，超節點通過大帶寬、低時延把分散的服務器集群組織成統一協同的計算系統——Token開銷可降低約50%，沙箱百毫秒級啟動，基于CCA架構的機密計算則補上安全側的短板。開發者不需要切換一套工具鏈，就能從大模型訓練直接走到Agent部署。

昇騰正在把“堆卡”變成系統工程

如果說鯤鵬解決的是“讓開發者少被遷移與適配消耗”，那么昇騰面對的，則是另一個更復雜的問題：當大模型訓練進入千卡級協同之后，算力競爭開始從“有沒有卡”，轉向“能不能把卡真正跑滿”。

2024年初，AIGCode團隊的陳秋武在昇騰上一代產品上做大模型預訓練時，整個CANN生態在他眼中還是一片“荒漠”——算子覆蓋率低，自研網絡結構的適配需要排期三到四個月，團隊不得不投入大量精力去填補生態的空白。

但這種變化的速度，比他們預想得更快。

大約8個月后，CANN生態覆蓋率已經從不足三成躍升至80%到90%，“這個迭代速度讓我非常驚訝”，陳秋武直言。

再到現在，問題已經變成“第一可解，第二不用排期，自己技術范圍內就能解決”。他給出了一個形象的比喻：“2024年初是嬰兒期，現在有點像青年期。”

如今，AIGCode團隊已經在昇騰平臺完成了MoE模型預訓練優化，算力利用率達到65%，接近行業平均水平的兩倍。

用陳秋武的話說，“一張卡可以當兩張卡用”。

而65%這個數字，是用系統工程優化換來的，而非堆卡堆出來的。

陳秋武拆解了這背后的路徑：核心在于通信與計算的協同調度。依托昇騰超節點架構，團隊能夠將千卡級集群的通信與計算指令做到精細的并行掩蓋，最大限度壓縮芯片空閑窗口；同時為實現裝滿瓶子，先遵循“大的塊MHA先裝到瓶子里，再用小的塊GDN填滿”的方法，結合in_proj、激活函數等小算子做融合，最后QKV重組零拷貝。進一步提升計算資源利用率。

而這背后，對應的正是CANN生態工程能力的快速成熟：預置1500余個基礎算子與100余個融合算子，提供Ascend C、PyPTO等多種算子編程范式，并兼容Triton、TileLang等業界主流編程框架，深度對接90余家主流開源社區，實現70余款國內外主流大模型發布即適配；同時生態加大對開發者激勵的投入，設立2000萬生態創新激勵基金，扶持算子、加速庫等領域創新探索，投放10000卡算力資源，保障開源社區開發者的算力需求，從工具、算力到資金，共同構成了一條從“可用”走向“好用易用”的演進路徑。

對此，圓桌主持人石侃表示："CANN并不只是一個冷冰冰的組件，而是已經成為了連接極致硬件和開發者無窮創造力的紐帶和橋梁。"向上兼容主流計算框架、向下屏蔽硬件復雜度，讓開發者用自己最熟悉的方式跑出最極致的性能——這正是CANN迭代至今最核心的設計哲學。

更重要的是，當這些技術能力開始轉化為開發者可感知的體驗時，一個更深層的變化開始出現：開發者不再只是生態的“使用者”，而是開始成為“共建者”。

從“用”到“建”:國產算力走向自我驅動

當開發者開始往生態里寫代碼，而不僅僅是跑代碼時，事情就變了。

清華大學、AIGCode、中科大——這些團隊不再只是跑模型、調參數，而是開始往生態里寫代碼、填坑、修路。

清華團隊將基于鯤鵬平臺的項目經驗沉淀為行業參考，為鯤鵬社區貢獻了氣象科學計算領域的最佳實踐；AIGCode則持續推進國產算力與自研模型之間的深度協同，希望打通從底層算力到模型訓練的完整鏈路。

要知道，氣象模擬與高性能科學計算，向來是算力平臺能力的壓力測試場——長周期、高精度、對穩定性幾乎零容忍，在對芯片的要求上，處于金字塔最靠近塔尖的位置。

這類團隊的選擇，歷來不看發布會，只看能不能在最苛刻的場景下穩定交付。他們現在不僅"用"，還開始往生態里"建"，本身就是一種比任何評測數據都更有分量的背書。

而這，也正是一個生態開始自我驅動的標志。

截至目前，鯤鵬開發者已超過415萬，合作伙伴超過7000家，解決方案認證超過27000個；昇騰開發者超過410萬，合作伙伴超過3000家，解決方案認證超過6700個。這些數字背后，是無數個"清華團隊"、"中科大團隊"和"AIGCode"們每一次工程經驗、優化能力與代碼資產的持續沉淀。

衡量生態是否真正繁榮的標準，不只是開發者數量夠不夠多，更重要的是，是否有越來越多開發者愿意把自己的工程經驗、優化能力與代碼資產持續沉淀進生態之中。

當生態的飛輪真正轉動起來，開發者的每一次共建都在反哺生態，降低后來者的門檻，鯤鵬、昇騰的計算產業生態也隨之繁榮起來。

在圓桌接近尾聲時，有人提了一個問題：如何用一句話概括你們選擇國產算力平臺的理由？

幾位開發者給出了各自不同的答案，但有一種共同的底色：不是沒有選擇，而是用過之后發現值得選。

一個算力生態真正走向成熟，或許不會在某一次發布會上被宣告，而是悄悄發生在開發者決定下次還選它的那一刻。

當越來越多的清華、中科大、AIGCode們把自己的代碼、經驗和判斷押注在同一套生態之上，這場從"能用"到"好用易用"的轉變，或許就已經越過了最難的那段坡。

雷峰網雷峰網

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.