一個算力生態從“能用”到“好用易用”,中間隔著什么?
過去幾年,國產AI算力行業長期存在一種割裂:硬件參數不斷刷新,但是當開發者真正落地時,大量時間卻依然消耗在環境配置、異構遷移、算子適配和反復踩坑上。
隨著大模型訓練進入千卡級協同、科學計算走向長周期穩定運行,這種割裂的代價被進一步放大了——開發效率本身,開始成為衡量算力平臺競爭力的重要指標。
在最近的鯤鵬昇騰開發者圓桌上,一個很有意思的現象是,無論是做高性能計算的清華團隊和中科大團隊,還是做大模型預訓練的AIGCode,他們談論最多的,都不是芯片參數,而是開發效率。
有人提到,過去遷移異構平臺往往需要幾個月,現在一周就能完成;有人提到,過去大量時間被消耗在硬件適配、環境配置和反復踩坑上,現在終于能把精力重新放回算法本身;還有人提到,過去很多問題必須等待廠商排期解決,現在開發者自己就能在社區里找到方案,甚至直接參與生態共建。
這些變化看似零散,但背后其實指向同一件事:鯤鵬昇騰生態,正在從“能用”進入“好用易用”的新階段。
衡量“好用易用”的標準,從來不是發布會上的參數表,而是開發者實際感知到的工程摩擦是否正在減小。也正是在這個意義上,這些開發者的體驗,成為觀察國產算力生態演進的一組關鍵樣本。
當算法創新卡在工程的“坑”里
過去幾年,AI行業出現了一個越來越明顯的變化:模型迭代越來越快,決定落地速度的關鍵,正從算法轉向算力基礎設施的工程能力。尤其在高性能計算領域,這種變化被進一步放大。
清華大學地球系統模擬團隊對此深有體會。
他們所做的工作,是用AI替代傳統大氣模擬中的經驗估算環節,把全球大氣模擬分辨率推進至公里級,讓極端天氣的模擬精度真正逼近實用價值。
這個方向的科學價值毋庸置疑,但問題在于:當分辨率提升一個量級之后,背后對應的計算復雜度,往往會呈指數級增長。
大氣模擬本質上是一個超長時間連續積分過程,一次完整計算往往持續數天甚至更久,中間任何一次軟硬件異常,都可能導致整個任務重來。相比互聯網業務里常見的“失敗重試”,科學計算更像是在一根極長的鋼絲上行走——很多任務沒有“回滾重開”的余地。
更復雜的問題來自精度。
一個氣候結果的背后,可能是數億次浮點運算的累計結果。單次誤差或許微不足道,但經過長時間迭代之后,誤差會像滾雪球一樣被不斷放大。
這也是為什么高性能計算領域始終強調混合精度、數值穩定性、通信一致性。
但相比計算本身,更隱蔽的消耗,其實來自工程生態的不成熟
過去很長一段時間里,國內算力生態整體仍處于早期階段,硬件迭代速度遠快于軟件生態成熟速度。很多平臺雖然已經能用,但開發工具鏈、編譯器、異構調度、通信框架以及社區經驗仍不完善,科研團隊很難從一開始就完成系統級優化。
于是,大量團隊只能先讓程序“跑起來”,再進入漫長的適配和調優階段。
這意味著,科學研發與工程優化長期處于割裂狀態:先解決科學問題,再回頭填工程的坑。
代價是巨大的:團隊大量精力被消耗在底層環境適配與反復踩坑上,真正的算法創新卻始終處于一種“排隊等待”的狀態。
鯤鵬如何將開發者從“填坑”里解放出來
"鯤鵬讓科研者的精力回到科研本身,不用在硬件適配上反復踩坑。"這是清華團隊王一鳴對鯤鵬最直接的評價。
這句話背后,其實對應著一種開發理念的轉變:團隊不再遵循“先解決科學問題,再做性能優化”的傳統模式,而是在代碼設計階段就開始將硬件特性、并行方式一并納入考量——科學研發與工程優化,從“前后接力”變成了“并行推進”。
理念轉變的前提,是平臺本身能把“坑”填平。
過去很長時間里,高性能計算平臺最大的難點之一,就是軟件生態的碎片化。很多科研團隊遷移代碼時,耗時往往不在算法,而在底層依賴適配:編譯鏈重配、通信庫重裝、指令集兼容、框架重寫,一層套一層。
而鯤鵬做了一件很關鍵的事情——盡可能保持開發環境的連續性。
王一鳴表示,很多主流氣象軟件和依賴庫在鯤鵬平臺上的兼容度已經很高,“加載幾個庫基本就能跑”,大量代碼不需要大規模重構,就能完成初步遷移。
這種差異,在中科大團隊身上體現得更加明顯。
研究員陳俊仕提到,過去遷移到異構平臺,周期往往以月為單位,遷移完成后還要重新做性能優化,但遷移到鯤鵬平臺,一周左右就能完成。
遷移效率差異的背后,本質上是開發復雜度的差異。
目前主流高性能計算系統采用CPU+GPU異構模式,多套指令集并存,開發者往往需要不斷處理CPU與加速器之間的數據搬運與協同問題。很多時候,一個原本只占較少耗時的CPU函數,在應用遷移到GPU后,可能會迅速成為新的性能瓶頸,開發者不得不反復重構并行邏輯。
而鯤鵬選擇了盡可能降低這種異構復雜性,將更多性能釋放建立在通用計算架構之上。對于開發者而言,變化最直接的一點是:大量原有代碼無需重寫就能直接運行,工作的重心開始從“搬運代碼”重新回到“性能調優”。
這種變化,最終轉化為了更實際的性能收益。
陳俊仕提到,通過構造更大的矩陣塊,并結合NUMA(非同一內存訪問)感知的內存分配策略,團隊的新算法相比傳統方法實現平均40多倍加速,部分場景接近200倍。
而對于氣象科學這類高精度、長周期計算場景,這種“少踩坑”的意義更加明顯。
清華團隊遷移到鯤鵬后,最直觀的感受之一,就是大規模長周期作業的穩定性顯著提升,斷點續跑機制也更加成熟。
此外,鯤鵬還提供了適配主流氣象開發語言的編譯器、數學庫和性能調優工具,讓團隊能夠在一個體系完整、反饋高效的平臺上快速調試參數、驗證模型。當底層計算的可靠性有了保障,研究人員就不再需要反復排查計算誤差的來源,而是能夠把更多精力重新放回模型本身。
社區的成熟度也在同步降低這種開發的阻力。在鯤鵬生態中,大部分常見問題都能從社區資料中找到可復用的經驗;更復雜的問題,社區工程師的響應速度也足夠快,開發者終于不用再長期陷在底層工程細節里。
當開發者不再被硬件適配消耗,性能優化的重心,也開始重新回到算法創新本身。
不過,鯤鵬在做的事情,并不只是解決"當下"的問題。
當AI基礎設施的戰場從"模型訓練"向"Agent規模化落地"遷移,Token與內存消耗、沙箱啟動速度、多Agent協同時的數據安全正在成為Agent進入產業場景之前的新一道"基礎設施門檻"。
鯤鵬超節點架構的設計,恰好為這一趨勢提供了系統級支持。基于靈衢互聯,超節點通過大帶寬、低時延把分散的服務器集群組織成統一協同的計算系統——Token開銷可降低約50%,沙箱百毫秒級啟動,基于CCA架構的機密計算則補上安全側的短板。開發者不需要切換一套工具鏈,就能從大模型訓練直接走到Agent部署。
昇騰正在把“堆卡”變成系統工程
如果說鯤鵬解決的是“讓開發者少被遷移與適配消耗”,那么昇騰面對的,則是另一個更復雜的問題:當大模型訓練進入千卡級協同之后,算力競爭開始從“有沒有卡”,轉向“能不能把卡真正跑滿”。
2024年初,AIGCode團隊的陳秋武在昇騰上一代產品上做大模型預訓練時,整個CANN生態在他眼中還是一片“荒漠”——算子覆蓋率低,自研網絡結構的適配需要排期三到四個月,團隊不得不投入大量精力去填補生態的空白。
但這種變化的速度,比他們預想得更快。
大約8個月后,CANN生態覆蓋率已經從不足三成躍升至80%到90%,“這個迭代速度讓我非常驚訝”,陳秋武直言。
再到現在,問題已經變成“第一可解,第二不用排期,自己技術范圍內就能解決”。他給出了一個形象的比喻:“2024年初是嬰兒期,現在有點像青年期。”
如今,AIGCode團隊已經在昇騰平臺完成了MoE模型預訓練優化,算力利用率達到65%,接近行業平均水平的兩倍。
用陳秋武的話說,“一張卡可以當兩張卡用”。
而65%這個數字,是用系統工程優化換來的,而非堆卡堆出來的。
陳秋武拆解了這背后的路徑:核心在于通信與計算的協同調度。依托昇騰超節點架構,團隊能夠將千卡級集群的通信與計算指令做到精細的并行掩蓋,最大限度壓縮芯片空閑窗口;同時為實現裝滿瓶子,先遵循“大的塊MHA先裝到瓶子里,再用小的塊GDN填滿”的方法,結合in_proj、激活函數等小算子做融合,最后QKV重組零拷貝。進一步提升計算資源利用率。
而這背后,對應的正是CANN生態工程能力的快速成熟:預置1500余個基礎算子與100余個融合算子,提供Ascend C、PyPTO等多種算子編程范式,并兼容Triton、TileLang等業界主流編程框架,深度對接90余家主流開源社區,實現70余款國內外主流大模型發布即適配;同時生態加大對開發者激勵的投入,設立2000萬生態創新激勵基金,扶持算子、加速庫等領域創新探索,投放10000卡算力資源,保障開源社區開發者的算力需求,從工具、算力到資金,共同構成了一條從“可用”走向“好用易用”的演進路徑。
對此,圓桌主持人石侃表示:"CANN并不只是一個冷冰冰的組件,而是已經成為了連接極致硬件和開發者無窮創造力的紐帶和橋梁。"向上兼容主流計算框架、向下屏蔽硬件復雜度,讓開發者用自己最熟悉的方式跑出最極致的性能——這正是CANN迭代至今最核心的設計哲學。
更重要的是,當這些技術能力開始轉化為開發者可感知的體驗時,一個更深層的變化開始出現:開發者不再只是生態的“使用者”,而是開始成為“共建者”。
![]()
從“用”到“建”:國產算力走向自我驅動
當開發者開始往生態里寫代碼,而不僅僅是跑代碼時,事情就變了。
清華大學、AIGCode、中科大——這些團隊不再只是跑模型、調參數,而是開始往生態里寫代碼、填坑、修路。
清華團隊將基于鯤鵬平臺的項目經驗沉淀為行業參考,為鯤鵬社區貢獻了氣象科學計算領域的最佳實踐;AIGCode則持續推進國產算力與自研模型之間的深度協同,希望打通從底層算力到模型訓練的完整鏈路。
要知道,氣象模擬與高性能科學計算,向來是算力平臺能力的壓力測試場——長周期、高精度、對穩定性幾乎零容忍,在對芯片的要求上,處于金字塔最靠近塔尖的位置。
這類團隊的選擇,歷來不看發布會,只看能不能在最苛刻的場景下穩定交付。他們現在不僅"用",還開始往生態里"建",本身就是一種比任何評測數據都更有分量的背書。
而這,也正是一個生態開始自我驅動的標志。
截至目前,鯤鵬開發者已超過415萬,合作伙伴超過7000家,解決方案認證超過27000個;昇騰開發者超過410萬,合作伙伴超過3000家,解決方案認證超過6700個。這些數字背后,是無數個"清華團隊"、"中科大團隊"和"AIGCode"們每一次工程經驗、優化能力與代碼資產的持續沉淀。
衡量生態是否真正繁榮的標準,不只是開發者數量夠不夠多,更重要的是,是否有越來越多開發者愿意把自己的工程經驗、優化能力與代碼資產持續沉淀進生態之中。
當生態的飛輪真正轉動起來,開發者的每一次共建都在反哺生態,降低后來者的門檻,鯤鵬、昇騰的計算產業生態也隨之繁榮起來。
在圓桌接近尾聲時,有人提了一個問題:如何用一句話概括你們選擇國產算力平臺的理由?
幾位開發者給出了各自不同的答案,但有一種共同的底色:不是沒有選擇,而是用過之后發現值得選。
一個算力生態真正走向成熟,或許不會在某一次發布會上被宣告,而是悄悄發生在開發者決定下次還選它的那一刻。
當越來越多的清華、中科大、AIGCode們把自己的代碼、經驗和判斷押注在同一套生態之上,這場從"能用"到"好用易用"的轉變,或許就已經越過了最難的那段坡。
雷峰網雷峰網
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.