![]()
近日,深圳河套學(xué)院Al訓(xùn)練平臺項(xiàng)目團(tuán)隊(duì),聯(lián)合哈爾濱工業(yè)大學(xué)(深圳)、深圳市大數(shù)據(jù)研究院、華為有關(guān)團(tuán)隊(duì),協(xié)同深智城AI算力平臺,面向國產(chǎn)算力大模型訓(xùn)練開展聯(lián)合攻關(guān)。
依托昇騰910C國產(chǎn)AI算力集群,完成1.6萬億參數(shù)大模型DeepSeek-V4-Pro全參數(shù)后訓(xùn)練。
此次實(shí)踐
為全球第三方機(jī)構(gòu)
在國產(chǎn)算力平臺上
完成該級別模型訓(xùn)練的相關(guān)探索
積累了重要經(jīng)驗(yàn)
也印證了國產(chǎn)AI芯片
可支撐世界級超大參數(shù)模型訓(xùn)練工作
![]()
優(yōu)化建模SFT數(shù)據(jù)飛輪流程
萬億參數(shù)大模型是人工智能領(lǐng)域的主流前沿模型,在邏輯推理、數(shù)理計(jì)算、代碼編寫、長文本理解等方面表現(xiàn)突出。這類模型的全參數(shù)訓(xùn)練,對硬件算力、集群穩(wěn)定性、算法適配優(yōu)化均有嚴(yán)苛要求。
長期以來,全球范圍內(nèi)萬億級大模型訓(xùn)練多采用海外高端算力產(chǎn)品,國內(nèi)國產(chǎn)算力此前主要用于模型推理、小幅微調(diào),難以完成全參數(shù)深度訓(xùn)練,這也是行業(yè)發(fā)展中普遍面臨的技術(shù)難題。
萬億級參數(shù)的
AI大模型訓(xùn)練難在哪?
如果把訓(xùn)練一個(gè)萬億級參數(shù)的AI大模型比作解一道超級復(fù)雜的數(shù)學(xué)題,那么每一張計(jì)算卡就像一名解題員。他們不僅要分工明確、日夜不停地連軸轉(zhuǎn),還不能有人偷懶、不能有人出錯(cuò),更不能有人掉隊(duì)。
這次訓(xùn)練的DeepSeek-V4-Pro采用的是混合專家模型(MoE)架構(gòu),可以把它想象成一個(gè)龐大的“專家團(tuán)”:平時(shí)回答問題只激活少數(shù)幾位專家,看似高效,但后訓(xùn)練時(shí),“專家們”之間的溝通量卻是普通模型的幾十倍。再加上動態(tài)切換的注意力機(jī)制,這對芯片算力的調(diào)度和顯存資源的管理提出了極其苛刻的要求。
簡單來說,以前的國產(chǎn)算力更多是讓大模型“能用”(即推理部署),就像給模型修了一條單行道,輸入一個(gè)問題,輸出一個(gè)答案。而這次的“全參數(shù)后訓(xùn)練”,則是要讓模型學(xué)會自我反思和調(diào)整,相當(dāng)于在單行道的基礎(chǔ)上,又增加了復(fù)雜的立交橋和多條反饋回路,計(jì)算量和通信量瞬間翻了好幾倍。
三大硬核突破
讓國產(chǎn)算力“跑得穩(wěn)”
面對如此極限的挑戰(zhàn)
科研團(tuán)隊(duì)在國產(chǎn)AI算力集群上
實(shí)現(xiàn)了三大硬核突破
一是“顯存拼圖”。萬億級大模型不可能只塞進(jìn)一張卡,團(tuán)隊(duì)設(shè)計(jì)了精密的分布式承載方案,把龐大的模型參數(shù)像拼圖一樣,精確地分配到千卡集群的每一張卡上,算力調(diào)度明明白白。
二是“負(fù)載均衡”。為了避免MoE模型中有的“專家”忙得夠嗆、有的卻在“閑逛”,團(tuán)隊(duì)專門優(yōu)化了調(diào)度策略,保證了每位“專家”分工合理,跨卡通信不再“堵車”。
三是“有人‘守夜’”。全參數(shù)后訓(xùn)練最怕跑著跑著系統(tǒng)突然崩潰。本次訓(xùn)練團(tuán)隊(duì)搭建了完整的監(jiān)控體系,全部實(shí)現(xiàn)可視可控,確保了長達(dá)1500多步的訓(xùn)練過程中,沒有出現(xiàn)一次中斷或報(bào)錯(cuò)。
![]()
項(xiàng)目團(tuán)隊(duì)開展技術(shù)復(fù)盤與學(xué)生實(shí)戰(zhàn)培養(yǎng)
本次探索是國產(chǎn)算力適配超大參數(shù)大模型過程中的一次重要進(jìn)展,有助于提升國內(nèi)AI產(chǎn)業(yè)鏈自主化水平,降低行業(yè)應(yīng)用成本,為人工智能技術(shù)落地應(yīng)用提供更多支撐。目前,項(xiàng)目已實(shí)現(xiàn)模型算力利用率(MFU)超過30%,關(guān)鍵訓(xùn)練算子效率提升14%,各項(xiàng)指標(biāo)均達(dá)到工業(yè)級運(yùn)行標(biāo)準(zhǔn)。
從技術(shù)應(yīng)用角度來看,調(diào)用已有模型開展業(yè)務(wù)推理,與從零完成模型全參數(shù)訓(xùn)練分屬不同技術(shù)環(huán)節(jié),二者在技術(shù)難度、硬件要求上存在明顯區(qū)別。本次試驗(yàn)結(jié)果表明,國產(chǎn)AI算力已可承擔(dān)頂級大模型訓(xùn)練任務(wù),相關(guān)技術(shù)路徑具備可行性。
該AI訓(xùn)練平臺項(xiàng)目以國產(chǎn)算力真實(shí)大模型訓(xùn)練任務(wù)為牽引,探索“頂尖人才培養(yǎng)、基礎(chǔ)模型研發(fā)、國產(chǎn)生態(tài)建設(shè)”協(xié)同推進(jìn)的新型訓(xùn)練平臺機(jī)制。深圳河套學(xué)院相關(guān)負(fù)責(zé)人表示,本次探索依托真實(shí)工程攻關(guān),幫助參訓(xùn)人員吃透大模型訓(xùn)練全鏈路,為國家人工智能戰(zhàn)略和國產(chǎn)算力生態(tài)建設(shè)培育具備實(shí)戰(zhàn)能力的高水平青年人才。
![]()
項(xiàng)目團(tuán)隊(duì)開展技術(shù)復(fù)盤與學(xué)生實(shí)戰(zhàn)培養(yǎng)
深圳河套學(xué)院將萬億級模型訓(xùn)練攻關(guān)作為“練兵場”,學(xué)生直接嵌入國產(chǎn)算力真實(shí)訓(xùn)練場景。截至目前,項(xiàng)目已培養(yǎng)學(xué)生42名,形成了由青年教師指導(dǎo)、博士生核心攻堅(jiān)、工程團(tuán)隊(duì)支撐的協(xié)同培養(yǎng)機(jī)制,持續(xù)為行業(yè)發(fā)展補(bǔ)充人才力量。
接下來,深圳河套學(xué)院將聯(lián)合生態(tài)伙伴持續(xù)優(yōu)化算力集群性能,圍繞長文本處理、AI智能體等方向開展技術(shù)探索,持續(xù)挖掘國產(chǎn)算力應(yīng)用潛力,推動人工智能產(chǎn)業(yè)穩(wěn)步發(fā)展。
內(nèi)容來源:新華社、深圳特區(qū)報(bào)、深圳河套學(xué)院、深圳教育、深視新聞
編輯:劉東博 張玉潔
審讀:黃淳 馬丹 張?jiān)?/p>
如需轉(zhuǎn)載,請注明以上內(nèi)容
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.