![]()
智東西
作者 王涵
編輯 漠影
2026年,AI專用HBM內(nèi)存價格暴漲超165%,顯存/HBM正在成為模型擴(kuò)展最昂貴、最稀缺的資源之一,模型公司的核心推理成本居高不下;
而另一邊,高端AI芯片對華出口管制反復(fù)橫跳,讓國產(chǎn)算力生態(tài)在面臨高昂過路費(fèi)與供應(yīng)鏈安全風(fēng)險的夾縫中艱難求生。
兩件事疊加,指向同一個問題:在硬件受限的情況下,國產(chǎn)模型廠商,該怎么繼續(xù)做模型?
智東西5月25日報道,在2026年5月23日的華為昇騰開發(fā)者大會上,面壁智能聯(lián)合清華大學(xué)、OpenBMB開源社區(qū),正式發(fā)布了BitCPM-CANN——全球首個完全基于國產(chǎn)華為昇騰平臺訓(xùn)練并開源的三值(1.58-bit)大模型。0.5B到8B全尺寸開源,推理顯存節(jié)省5/6。
BitCPM-CANN有什么不同?它的亮相意味著什么?國產(chǎn)芯片訓(xùn)練的路,又能不能走通呢?
一、1.58-bit三值權(quán)重如何跑通昇騰,省下6倍顯存?
BitCPM-CANN是全球首個完全基于國產(chǎn)算力平臺(華為昇騰)訓(xùn)練并開源的三值(1.58-bit)大模型。
那什么是三值?普通大模型的參數(shù)通常用16位或8位浮點數(shù)表示,而BitCPM-CANN每個參數(shù)只能取三個值:-1、0、+1。理論上,其每個參數(shù)平均只需1.58 bit來存儲。
為了節(jié)省顯存,業(yè)界的傳統(tǒng)思路一般是把32位精度降到8位,這樣確實會損失一些精度,但能換來4倍的顯存節(jié)省。而BitCPM-CANN路線不太一樣:團(tuán)隊認(rèn)為壓縮后的每一個比特,都應(yīng)該盡可能多地學(xué)進(jìn)知識,而不是白白浪費(fèi)掉。
所以,雖然BitCPM-CANN只有1.58 bit,但是它的信息密度其實非常高,不是“犧牲精度換內(nèi)存”的妥協(xié)。這個特點,在HBM緊缺、長上下文處理、MoE擴(kuò)展這類特別吃顯存的場景里,尤其能發(fā)揮價值。
那BitCPM-CANN是怎么做到的?其技術(shù)路線可以劃分為三個關(guān)鍵步驟:
第一步:把1.58-bit三值權(quán)重跑進(jìn)訓(xùn)練算子。
研發(fā)團(tuán)隊采用STE(直通估計器)方案,在訓(xùn)練階段保留全精度殘差用于梯度更新,在導(dǎo)出階段則輸出嚴(yán)格的三值權(quán)重,從而將離散權(quán)重真正嵌入華為昇騰的訓(xùn)練算子中。
第二步:用完整QAT加后訓(xùn)練蒸餾守住模型能力。
團(tuán)隊在昇騰上完整部署了量化感知訓(xùn)練(QAT)與后訓(xùn)練蒸餾流程,在保證模型效果不下降的前提下,將訓(xùn)練吞吐量的損失控制在僅5%的水平。
第三步:把低比特能力沉淀為MindSpeed訓(xùn)練基礎(chǔ)設(shè)施。
團(tuán)隊還基于Megatron?LM框架嵌入可插拔的QAT并行線性層,統(tǒng)一了checkpoint格式并支持32K長序列訓(xùn)練,使低比特訓(xùn)練能力成為昇騰平臺上可復(fù)用、可擴(kuò)展的公共底座。
二、60B入終端:BitCPM-CANN撬動端側(cè)AI落地
目前,BitCPM-CANN已開源0.5B到8B的全尺寸版本,在1B、3B、8B三個規(guī)格上,模型均保留了全精度版本95.7%以上的能力,其中3B版本達(dá)到97.2%。即使在數(shù)學(xué)、代碼等高敏感任務(wù)上,3B版本的表現(xiàn)也已進(jìn)入接近全精度的區(qū)間。
這些數(shù)據(jù)意味著1.58-bit已經(jīng)具備面向真實模型族、真實評測集、真實訓(xùn)練棧的工程說服力。
![]()
端側(cè),這是BitCPM-CANN價值最容易被感知到的地方,因為端側(cè)的用戶最多,場景也最廣。
拿8B模型來說,傳統(tǒng)BF16格式要占大約16GB顯存,這個數(shù)字已經(jīng)超過絕大多數(shù)手機(jī)的內(nèi)存容量了,更別提還要留給其他應(yīng)用空間。
BitCPM-CANN把它壓縮到2-3GB,手機(jī)內(nèi)存就能輕松跑起來。手機(jī)廠商不需要為了跑大模型去堆昂貴的超大內(nèi)存,普通旗艦機(jī)就能流暢運(yùn)行8B級別的對話模型。
如果再往前走一步,結(jié)合MoE架構(gòu)——每次只激活一部分參數(shù)——未來甚至有望把60B級別的模型塞進(jìn)筆記本電腦、平板,甚至高端手機(jī)里。
硬件這邊也在同步推進(jìn)。高通的8850/8397等新一代端側(cè)芯片,已經(jīng)原生支持2-bit以下的低比特推理。芯片廠商早就把跑道鋪好了,就差一個好模型。BitCPM-CANN剛好提供1.58-bit的權(quán)重,跟硬件能力完美匹配。
更值得關(guān)注的是,BitCPM-CANN全都基于華為昇騰芯片搭建,實現(xiàn)了全鏈路原生適配國產(chǎn)算力,跟英偉達(dá)CUDA生態(tài)沒有依賴關(guān)系。
這意味著其整個訓(xùn)練流程——前向計算、反向傳播、量化算子的實現(xiàn)、分布式訓(xùn)練的調(diào)度——全部在昇騰上原生完成,中間不需要去CUDA上跑一遍驗證再搬回來。
這是昇騰平臺上第一個完整跑通1.58-bit訓(xùn)練,并且做了全精度對標(biāo)評測的公開成果,模型規(guī)模直接推到了8B量級,不是幾百兆的小模型演示。
國產(chǎn)NPU在大規(guī)模三值量化訓(xùn)練這個方向上,之前幾乎沒有公開的系統(tǒng)化成果,BitCPM-CANN算是把這塊空白補(bǔ)上了。
未來,昇騰生態(tài)里的低比特模型研發(fā),都可以依托這套底座往前走。環(huán)境層、長序列支持、并行策略、融合算子、調(diào)試工具,一套鏈路已經(jīng)沉淀下來了。后續(xù)其他團(tuán)隊想在昇騰上做低比特訓(xùn)練,不需要再從零開始踩坑。
國產(chǎn)芯片、國產(chǎn)模型、國產(chǎn)訓(xùn)練框架一體化的自主產(chǎn)業(yè)鏈條,正在一點點變成現(xiàn)實。
三、四年深耕,全棧自研:面壁智能如何掌握端側(cè)AI話語權(quán)?
BitCPM-CANN并非憑空出現(xiàn),而是面壁智能在端側(cè)AI這條路線上長期深耕的自然結(jié)果。
針對端側(cè)AI,面壁已形成自己的模型矩陣——“小鋼炮”系列(MiniCPM)。顧名思義,這是參數(shù)雖小、能力卻強(qiáng)的一系列模型。MiniCPM在GitHub上累計收獲超3萬星標(biāo),Hugging Face開源總下載量超過3000萬,成為中國端側(cè)AI領(lǐng)域最受歡迎的開源模型家族之一。
![]()
但把時間撥回面壁成立之初,情況遠(yuǎn)沒有這么樂觀。2022年,國產(chǎn)芯片在訓(xùn)練大模型上尚不成熟,國內(nèi)AI基礎(chǔ)設(shè)施與國外差距明顯。也正因如此,絕大多數(shù)公司選擇了最省事的路徑——直接依賴英偉達(dá)CUDA生態(tài)。
然而,面壁智能卻做了一個截然不同的決定:自己寫框架,自己搭底座。面壁智能從一開始就不綁定CUDA,換句話說,面壁智能的工程師從頭就已經(jīng)在親手解決那些底層問題,例如顯存怎么分配、通信怎么優(yōu)化、算子怎么融合。
更重要的是,這個起點引發(fā)了一連串的技術(shù)積累。此后,他們自研了一套訓(xùn)練框架,取名BM-Train(Big Model Train)。
從稀疏架構(gòu)InfLLM到低比特量化方法BitCPM、推理框架CPM.cu,面壁智能逐步構(gòu)建起覆蓋訓(xùn)練到推理的全棧端側(cè)技術(shù)體系。正是這些積累,讓面壁智能能夠把驗證成熟的1.58-bit訓(xùn)練方法,完整地搬到昇騰平臺上,做出BitCPM-CANN,從底層算子到訓(xùn)練框架,全鏈路在昇騰原生跑通。
更難得的是,他們在國產(chǎn)芯片生態(tài)上的積累遠(yuǎn)不止昇騰一家。此前,面壁智能曾參與協(xié)助華為昇騰、鯤鵬,以及寒武紀(jì)、天數(shù)智芯等國產(chǎn)芯片構(gòu)建和優(yōu)化軟件棧。這些經(jīng)歷讓面壁智能建立起了對國產(chǎn)芯片生態(tài)的獨特認(rèn)知:知道坑在哪,也知道怎么繞過去。
端側(cè)大模型的性能釋放,離不開模型廠商與芯片廠商的共同投入。在這個賽道上,面壁智能追求的從來不只是參與,而是成為推動者與構(gòu)建者。
結(jié)語:硬件受限,模型效率先行
過去兩年,行業(yè)把Scaling Law奉為圭臬,算力成了唯一的門檻。
而BitCPM-CANN代表了另一條路線:在硬件給定的前提下,把模型的信息密度推向極限。更重要的是,BitCPM-CANN證明了這條路線可以在國產(chǎn)算力上完整跑通。
回到最開頭的那個問題“在硬件受限的情況下,國產(chǎn)模型廠商,該怎么繼續(xù)做大模型?”
面壁智能用BitCPM-CANN給出了答案:當(dāng)硬件追趕需要時間,模型效率可以先行。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.