最近AI圈被一條消息刷屏。
華為牽頭聯(lián)合多家機(jī)構(gòu),在約1000顆昇騰910C芯片組成的集群上,完成了DeepSeek-V4-Pro的全參數(shù)后訓(xùn)練,并穩(wěn)定運(yùn)行超過1500步,同時(shí)算子效率提升約14%。
看上去只是一次實(shí)驗(yàn)披露,但問題在于,它觸碰的是整個(gè)AI產(chǎn)業(yè)最敏感的一條線:國產(chǎn)算力是否開始具備“訓(xùn)練能力”。
![]()
如果把時(shí)間往前推一年,這件事幾乎不可想象。
2025年曾有測試顯示,即便有工程團(tuán)隊(duì)深度參與,DeepSeek模型在昇騰平臺(tái)上依然無法完成完整訓(xùn)練流程,問題集中在三個(gè)層面:芯片互聯(lián)帶寬不足、系統(tǒng)調(diào)度不穩(wěn)定,以及軟件棧生態(tài)不成熟。
當(dāng)時(shí)的現(xiàn)實(shí)很直接,昇騰更多只能承擔(dān)推理任務(wù),真正的大模型訓(xùn)練仍然依賴英偉達(dá)GPU體系。
理解這次進(jìn)展,必須先區(qū)分“推理”和“訓(xùn)練”。
推理是模型已經(jīng)完成后的應(yīng)用階段,算力需求相對(duì)固定;訓(xùn)練則是從海量數(shù)據(jù)中不斷更新模型參數(shù),對(duì)通信效率、集群調(diào)度和算子穩(wěn)定性要求極高。
這次實(shí)驗(yàn)的關(guān)鍵在于,它不是簡單跑推理,而是完成了“全參數(shù)后訓(xùn)練”,意味著模型每一個(gè)權(quán)重都參與更新,這一步在工程復(fù)雜度上明顯更高。
![]()
另一個(gè)容易被忽略的信息是模型本身。
DeepSeek-V4-Pro參數(shù)規(guī)模達(dá)到1.6萬億級(jí)別,從行業(yè)角度看,這已經(jīng)屬于超大規(guī)模模型范疇。
但需要注意,這次執(zhí)行的是“后訓(xùn)練階段”,其計(jì)算量遠(yuǎn)低于預(yù)訓(xùn)練階段。
換句話說,這次實(shí)驗(yàn)更像是在驗(yàn)證系統(tǒng)能力,而不是挑戰(zhàn)算力極限。
從結(jié)果看,這次集群表現(xiàn)出一定優(yōu)化能力。
約1000顆昇騰910C芯片組成的系統(tǒng),在長時(shí)間訓(xùn)練中保持穩(wěn)定運(yùn)行,同時(shí)算子效率提升14%,說明在調(diào)度與執(zhí)行層面確實(shí)做了優(yōu)化。
不過目前并沒有公開完整benchmark數(shù)據(jù),也沒有與英偉達(dá)同規(guī)模系統(tǒng)的直接對(duì)比,這讓外界很難判斷真實(shí)差距。
![]()
昇騰910C本身的能力也處在追趕階段。
公開資料顯示,其推理性能大約在英偉達(dá)H100的60%左右,而在大規(guī)模訓(xùn)練場景中,由于依賴高帶寬互聯(lián),實(shí)際差距可能進(jìn)一步擴(kuò)大。
華為近年來推出的新一代Atlas加速器在算力和內(nèi)存規(guī)格上持續(xù)升級(jí),但從芯片發(fā)布到穩(wěn)定生態(tài)形成,中間仍存在工程化落差。
如果只看技術(shù)層面,這次突破并沒有改變AI算力格局。
但如果放在產(chǎn)業(yè)層面,它的意義在于第一次明確驗(yàn)證:國產(chǎn)芯片集群已經(jīng)可以完成“非輕量級(jí)訓(xùn)練任務(wù)”。
這意味著國產(chǎn)AI算力不再只是推理替代,而開始進(jìn)入訓(xùn)練驗(yàn)證階段。
![]()
不過真正的分水嶺并不在這里。
后訓(xùn)練只是模型生命周期中的一小段,而真正決定算力天花板的,是預(yù)訓(xùn)練階段。
DeepSeek此前公開的數(shù)據(jù)中,預(yù)訓(xùn)練語料規(guī)模達(dá)到32萬億token,這才是算力消耗的核心戰(zhàn)場。
如果沒有在這一階段實(shí)現(xiàn)突破,整個(gè)體系仍然無法真正擺脫對(duì)外部GPU的依賴。
從行業(yè)視角看,這次事件更像一個(gè)信號(hào),而不是結(jié)論。
它說明國產(chǎn)算力正在從“能用”向“可訓(xùn)練”過渡,但距離“可規(guī)模替代”仍有明顯差距。
關(guān)鍵不在芯片單點(diǎn)性能,而在于軟件棧、集群調(diào)度與長期穩(wěn)定性是否能形成閉環(huán)。
![]()
未來真正值得觀察的點(diǎn)很清晰。
第一,是否有公開的預(yù)訓(xùn)練級(jí)別測試出現(xiàn);第二,是否出現(xiàn)獨(dú)立第三方復(fù)現(xiàn)結(jié)果;第三,國產(chǎn)芯片在大規(guī)模集群通信上的瓶頸是否被系統(tǒng)性解決。
這三點(diǎn)如果沒有突破,現(xiàn)階段更多仍屬于工程優(yōu)化,而不是代際替換。
這次“1000顆昇騰芯片跑通后訓(xùn)練”的意義,不在于它證明了什么,而在于它第一次把問題擺到了臺(tái)面上。
國產(chǎn)算力已經(jīng)不再是“能不能用”,而是開始進(jìn)入“能用到什么程度”的階段。
但真正決定未來格局的,不是一次實(shí)驗(yàn)跑通,而是下一次能不能把預(yù)訓(xùn)練也跑通。
如果說AI競爭是一場算力馬拉松,那么這一步最多只是從走路變成慢跑,真正的速度,還沒有開始。
信息來源:華為聲稱:用1000顆昇騰910C芯片完成對(duì)DeepSeek進(jìn)行后訓(xùn)練 2026-06-07 20:18
· 人工智能學(xué)家
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.