henry 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
DeepSeek V4發(fā)布,比模型本身更受關注的,是一個根本性的轉變:
國產(chǎn)算力生態(tài)正在從過去“芯片被動適配模型”的單向奔赴,邁向“芯模協(xié)同”的新階段。
之前,昇騰與不少模型進行過協(xié)同探索,但V4是第一次在大規(guī)模、高強度、工程化的尺度上,驗證了這種“芯模協(xié)同”的可行性與效率。
而這,恰恰是過去CUDA+英偉達體系最深的一層護城河——
模型、框架、芯片在長周期中的共同演化。
昇騰正在補的,不是某一行代碼,而是這十多年的時間。
但與此同時,更大的變化也正在鯤鵬昇騰開發(fā)者生態(tài)里發(fā)生。
過去一年,金融、科研、AI訓練等領域,越來越多團隊開始把核心業(yè)務遷移到鯤鵬昇騰上;越來越多開發(fā)者開始參與到底層能力、框架適配和社區(qū)共建里。
這些案例或許沒有V4那樣的傳播聲量,卻和V4一起,共同構成了鯤鵬昇騰生態(tài)真正的變化。它們最終都在指向同一件事:
鯤鵬昇騰,正在慢慢越過“能用”那條線。
而這一點,在剛剛結束的鯤鵬昇騰開發(fā)者大會2026開發(fā)者圓桌上,也被不少一線開發(fā)者反復提到。
![]()
圓桌上,中科院計算所副研究員、B站UP主石侃(老石談芯),與來自各個領域的開發(fā)者團隊,共同分享了各自在鯤鵬昇騰上的實戰(zhàn)經(jīng)驗。
他們做的方向雖然并不相同,但最后,幾乎所有人的結論都指向以下幾個方向:
- 鯤鵬、昇騰讓我們看到,中國自己的算力平臺,已經(jīng)可以成為業(yè)務首選。
- CANN在2024年初還是幼兒期,現(xiàn)在已經(jīng)更像青年期了。
- 國產(chǎn)算力是潮流,先用起來。
CANN生態(tài)邁向好用易用
過去一年,鯤鵬昇騰生態(tài)進入了一輪高密度迭代。
用論壇上陳秋武老師的話理解,就是CANN以前是幼兒期,現(xiàn)在是青年期了。
所謂“青年期”,不是說生態(tài)已經(jīng)成熟,而是開發(fā)者開始脫離“廠商保姆式支持”,能自己解決問題、貢獻代碼、推動迭代。
目前為止,65個源碼倉完成分層解耦,超節(jié)點架構正式落地,70余款主流大模型做到發(fā)布即適配。
對很多開發(fā)者來說,CANN也開始從“廠商工具鏈”變成一個真正可參與、共創(chuàng)的開源生態(tài)。
上個月DeepSeek V4發(fā)布時的芯模協(xié)同,就是這一輪變化最集中的一次展示。
而在剛剛結束的圓桌上,開發(fā)者們給出的反饋則更直接:
在鯤鵬昇騰上干活的體感,確實變了。
![]()
變在哪?圓桌上大家指向了三件事:適配效率性能天花板生產(chǎn)級信任
適配效率
眾所周知,芯片決定的是算力上限,生態(tài)決定的,才是算力能不能真正釋放出來。
沒有生態(tài),再強的硬件也只是能點亮。開發(fā)者依然會卡在算子不支持、框架遷移困難、集群調(diào)度復雜這些細節(jié)里。
這也是此前很多開發(fā)者不愿遷移、或者遷不動的原因。
而這件事,正在發(fā)生變化。
AIGCode分享了自己加入昇騰生態(tài)的原因。創(chuàng)始人陳秋武在圓桌上沒藏著:
說實話,一開始是因為窮。2024年初沒有卡,我們是創(chuàng)業(yè)小公司。
用起來之后,變化來得比預想快
![]()
早期在昇騰上做MoE預訓練,適配自研網(wǎng)絡結構給華為提工單,排期需要三到四個月
到下一代上,同樣的問題自己就能動手解決,不用排隊了。
更讓陳秋武感到震驚的,是CANN生態(tài)補齊的速度。
他回憶,2024年初團隊第一次在昇騰硬件上做7B級預訓練時,整個生態(tài)“幾乎是一片荒漠”,很多基礎能力都還缺著。
但僅僅過了8個月,再回頭看時,整個CANN生態(tài)的覆蓋率已經(jīng)做到80%到90%。
從“很多東西都沒有”,到主流能力基本補齊,速度快得讓他都覺得意外。
類似的變化,也出現(xiàn)在其他團隊身上。
清華的王一鳴把氣象模型遷移到鯤鵬,Load幾個庫就能跑基線版本,他表示:
開源以后,我們能更充分地學習業(yè)界的優(yōu)秀實踐,在此基礎上進行適配和優(yōu)化,也能將一些好的經(jīng)驗應用到自己的項目中。
![]()
中科大團隊遷移高性能計算求解器到鯤鵬,編譯層面不到一周搞定
團隊的陳俊仕說,碰到的問題更多是編譯器版本、環(huán)境配置這類工程細節(jié),跟架構本身關系不大。
這其實是一個很重要的信號。
四個團隊,四種完全不同的場景,呈現(xiàn)出同一種趨勢:開發(fā)過程中問題的解決已經(jīng)不依賴廠商貼身服務了。
這就意味著,國產(chǎn)算力最難的階段,可能已經(jīng)過去了。
性能天花板
適配只是第一步。真正決定開發(fā)者會不會留下來的,還是性能。
AIGCode在昇騰上,把MoE模型預訓練的MFU(算力利用率)做到了65%。這個數(shù)字,已經(jīng)接近行業(yè)平均水平的兩倍。
換句話說,同樣一張卡,真正干活的時間更多了。
![]()
陳秋武在圓桌上的說法很直接:
一張卡,能頂兩張用。
而支撐這一效率的關鍵之一,是昇騰超節(jié)點。
預訓練進入千卡時代后,真正困難的已經(jīng)不再只是單卡性能,而是大規(guī)模集群下的通信與調(diào)度效率。
昇騰超節(jié)點通過統(tǒng)一內(nèi)存編址和高速互聯(lián),把原本復雜的異構通信進一步抽象化,降低了大規(guī)模訓練的系統(tǒng)復雜度。
AIGCode能做到65%的MFU,背后一個重要支撐就在這里。
開源降低了底層開發(fā)門檻,同構架構減少了遷移復雜度,而超節(jié)點則進一步解決了大規(guī)模擴展的問題。
它把通信與計算之間的并行掩蓋做得更深,讓流水線盡可能保持滿載運行,減少不同設備之間的等待和空耗。
最終,在千卡級集群場景下,整體負載率被拉到很高,用相對有限的算力,完成了更多有效計算。
另一邊,中科大團隊則基于鯤鵬研發(fā)了面向高性能計算的新型LU求解器。
LU分解是最基礎的矩陣操作,所有涉及矩陣的科學計算場景都離不開它,優(yōu)化LU分解就是在底層優(yōu)化所有科學計算問題。
通過算法與硬件協(xié)同設計,把原本不規(guī)則的計算重構為規(guī)則稠密計算,優(yōu)化后求解器相比傳統(tǒng)方法實現(xiàn)平均40多倍加速,部分場景接近200倍。
65%、40倍、200倍。
幾個看似分散的數(shù)據(jù)背后,其實對應的是同一件事:鯤鵬昇騰正在從“能跑”走向“好用”,生產(chǎn)級能力開始成型。
生產(chǎn)級信任
比性能更難跨過去的,其實是信任。
這次,一家頭部股份制銀行已經(jīng)把AI直接推進了核心風控流程。大模型與小模型混合架構,開始介入資金流轉和風險決策。
現(xiàn)場公布的數(shù)據(jù)也很硬:
首Token響應500毫秒、日均260億Token、可用性99.999%、全年故障時間不超過1分鐘,四項金融級指標全部達標。
但比性能指標更重要的是,他們開始愿意把核心業(yè)務真正放上去了。
而背后的關鍵變化之一,是CANN開源之后,整個系統(tǒng)終于不再是黑盒。
開發(fā)者不再只能“提需求、等適配”,而是可以真正參與到底層能力建設里。甚至連金融行業(yè)這樣的傳統(tǒng)非算子開發(fā)者,也開始向社區(qū)貢獻特性。
鄭老師在現(xiàn)場提到一句很關鍵的話:
開源之后,小問題我們自己隨時能修,大問題可以和社區(qū)一起討論。對整個方案更有把握,而不是在用一個黑盒子。
對于很多企業(yè)來說,性能從來不是唯一門檻。
真正決定他們敢不敢上生產(chǎn)環(huán)境的,是系統(tǒng)是否可見、可控、可維護。
打造開源開放的開發(fā)者生態(tài)
開發(fā)者的這些體感變化不是憑空而來的,背后是華為在開源開放上的一次關鍵選擇。
去年8月,CANN啟動全面開源;12月底,編譯器、運行時等核心代碼全量上線。
![]()
過去,開發(fā)者遇到問題,很多時候只能提工單、等版本更新。
而開源之后,運行時、算子編譯等核心模塊逐步解耦,開發(fā)者開始能真正參與到底層迭代里。
AIGCode從“排隊三個月”到“自己動手解決”,背后的變化就在這里。
股份制銀行這類非典型算力開發(fā)者愿意參與的原因,也在這里。
更關鍵的是,CANN開始逐步兼容主流AI生態(tài)。70余款主流大模型做到發(fā)布即適配,開發(fā)者不用改變原有開發(fā)習慣,就能直接調(diào)用昇騰的硬件能力。
這正如會上石侃談到的,向上,兼容主流計算框架;向下,屏蔽硬件的復雜度和差異性。
而這種兼容的背后,是CANN在底層做了大量重構——
提供豐富的算子庫、敏捷的開發(fā)工具鏈,以及全方位的開發(fā)者支持,大幅降低了算力使用門檻。
當然,生態(tài)不能只靠一方使勁。
開發(fā)者每一次正向反饋、每一個優(yōu)化結果、每一個創(chuàng)新應用,都能通過昇騰和華為的生態(tài)快速走向產(chǎn)業(yè)界,形成技術、商業(yè)、生態(tài)的完整閉環(huán)。
還有個有趣的細節(jié)是,Agent也在降低生態(tài)的門檻,陳秋武提到:
過去很多重復性的適配工作,現(xiàn)在已經(jīng)開始被Agent自動完成。生成代碼、給出示例、自動搭建環(huán)境,很多過去需要啃文檔的流程,被壓縮到了半小時以內(nèi)。
工具鏈在變化,開發(fā)方式本身也在變化。
飛輪轉起來了
說到底,比性能和適配更重要的變化,可能是生態(tài)方向開始變了。
在鯤鵬昇騰社區(qū)里,開發(fā)者不再只是“被動適配”,而是開始主動貢獻。
圓桌上,某頭部股份制銀行分享其已經(jīng)向多個社區(qū)累計貢獻上百個特性,其中僅向vLLM-Ascend就貢獻了34項優(yōu)化,而且不限于金融場景,全行業(yè)都能復用。
作為較早投入昇騰生態(tài)的創(chuàng)業(yè)團隊,AIGCode則從2024年起便持續(xù)參與社區(qū)共建,并貢獻了不少核心代碼。
一家十幾人的創(chuàng)業(yè)公司,愿意長期往別人的生態(tài)里投入研發(fā)資源,背后的邏輯其實很簡單:
他們開始相信,這條路會成為主流,而這些貢獻,又反過來加速了整個生態(tài)閉環(huán)。
硬件托住模型,模型落進產(chǎn)品,產(chǎn)品再反哺生態(tài)。
AIGCode在昇騰上做出65%的預訓練效率后,很快推出了自己的智能編程工具,用戶只需要輸入提示詞,15分鐘就能生成一套完整系統(tǒng)。
清華則聯(lián)合其他高校和科研單位在鯤鵬上跑出了戈登貝爾級別的科研成果。
這條閉環(huán),已經(jīng)不局限于來分享的幾個明星團隊身上。
今年2月,智譜GLM-5開源,昇騰完成Day 0適配;4月,DeepSeek V4發(fā)布,不僅是Day 0適配,更是更深入的芯模協(xié)同。
截至目前,鯤鵬開發(fā)者已經(jīng)超過415萬,昇騰開發(fā)者超過410萬,openEuler裝機量超過1600萬套
數(shù)字當然重要,但比數(shù)字更值得關注的,是生態(tài)開始出現(xiàn)“自增長”。
當創(chuàng)業(yè)公司開始主動貢獻代碼,當銀行愿意把核心風控放上去,當高校開始把關鍵科研項目跑在上面,飛輪就已經(jīng)不再只靠華為一家推動了。
當被問及用昇騰一年多最大的感受時,陳秋武提到:
參與進來的,已經(jīng)不只是科技公司了。
高校、金融、AI大模型行業(yè),以及越來越多不同領域的團隊,都開始進入這個生態(tài),從用戶變成生態(tài)貢獻者。這些“非典型”開發(fā)者的加入是國產(chǎn)算力走向“易用好用”最直觀的信號。
而中科大的陳俊仕,則給了現(xiàn)場開發(fā)者一句非常直接的建議:
趕緊用。
可以說,從“能跑”到“有人長期建設”,從“廠商推動”到“生態(tài)自增長”,華為算力生態(tài),正在進入新的階段——
一個成熟的國產(chǎn)算力生態(tài)正在成型。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.