網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

面壁智能放大招！開源全尺寸BitCPM-CANN：國產(chǎn)算力首次跑通1.58-bit訓(xùn)練，推理顯存省5/6

2026-05-25 22:13:39　來源: 智東西

北京舉報

分享至

智東西
作者王涵
編輯漠影

2026年，AI專用HBM內(nèi)存價格暴漲超165%，顯存/HBM正在成為模型擴(kuò)展最昂貴、最稀缺的資源之一，模型公司的核心推理成本居高不下；

而另一邊，高端AI芯片對華出口管制反復(fù)橫跳，讓國產(chǎn)算力生態(tài)在面臨高昂過路費(fèi)與供應(yīng)鏈安全風(fēng)險的夾縫中艱難求生。

兩件事疊加，指向同一個問題：在硬件受限的情況下，國產(chǎn)模型廠商，該怎么繼續(xù)做模型？

智東西5月25日報道，在2026年5月23日的華為昇騰開發(fā)者大會上，面壁智能聯(lián)合清華大學(xué)、OpenBMB開源社區(qū)，正式發(fā)布了BitCPM-CANN——全球首個完全基于國產(chǎn)華為昇騰平臺訓(xùn)練并開源的三值（1.58-bit）大模型。0.5B到8B全尺寸開源，推理顯存節(jié)省5/6。

BitCPM-CANN有什么不同？它的亮相意味著什么？國產(chǎn)芯片訓(xùn)練的路，又能不能走通呢？

一、1.58-bit三值權(quán)重如何跑通昇騰，省下6倍顯存？

BitCPM-CANN是全球首個完全基于國產(chǎn)算力平臺（華為昇騰）訓(xùn)練并開源的三值（1.58-bit）大模型。

那什么是三值？普通大模型的參數(shù)通常用16位或8位浮點數(shù)表示，而BitCPM-CANN每個參數(shù)只能取三個值：-1、0、+1。理論上，其每個參數(shù)平均只需1.58 bit來存儲。

為了節(jié)省顯存，業(yè)界的傳統(tǒng)思路一般是把32位精度降到8位，這樣確實會損失一些精度，但能換來4倍的顯存節(jié)省。而BitCPM-CANN路線不太一樣：團(tuán)隊認(rèn)為壓縮后的每一個比特，都應(yīng)該盡可能多地學(xué)進(jìn)知識，而不是白白浪費(fèi)掉。

所以，雖然BitCPM-CANN只有1.58 bit，但是它的信息密度其實非常高，不是“犧牲精度換內(nèi)存”的妥協(xié)。這個特點，在HBM緊缺、長上下文處理、MoE擴(kuò)展這類特別吃顯存的場景里，尤其能發(fā)揮價值。

那BitCPM-CANN是怎么做到的？其技術(shù)路線可以劃分為三個關(guān)鍵步驟：

第一步：把1.58-bit三值權(quán)重跑進(jìn)訓(xùn)練算子。

研發(fā)團(tuán)隊采用STE（直通估計器）方案，在訓(xùn)練階段保留全精度殘差用于梯度更新，在導(dǎo)出階段則輸出嚴(yán)格的三值權(quán)重，從而將離散權(quán)重真正嵌入華為昇騰的訓(xùn)練算子中。

第二步：用完整QAT加后訓(xùn)練蒸餾守住模型能力。

團(tuán)隊在昇騰上完整部署了量化感知訓(xùn)練（QAT）與后訓(xùn)練蒸餾流程，在保證模型效果不下降的前提下，將訓(xùn)練吞吐量的損失控制在僅5%的水平。

第三步：把低比特能力沉淀為MindSpeed訓(xùn)練基礎(chǔ)設(shè)施。

團(tuán)隊還基于Megatron?LM框架嵌入可插拔的QAT并行線性層，統(tǒng)一了checkpoint格式并支持32K長序列訓(xùn)練，使低比特訓(xùn)練能力成為昇騰平臺上可復(fù)用、可擴(kuò)展的公共底座。

二、60B入終端：BitCPM-CANN撬動端側(cè)AI落地

目前，BitCPM-CANN已開源0.5B到8B的全尺寸版本，在1B、3B、8B三個規(guī)格上，模型均保留了全精度版本95.7%以上的能力，其中3B版本達(dá)到97.2%。即使在數(shù)學(xué)、代碼等高敏感任務(wù)上，3B版本的表現(xiàn)也已進(jìn)入接近全精度的區(qū)間。

這些數(shù)據(jù)意味著1.58-bit已經(jīng)具備面向真實模型族、真實評測集、真實訓(xùn)練棧的工程說服力。

端側(cè)，這是BitCPM-CANN價值最容易被感知到的地方，因為端側(cè)的用戶最多，場景也最廣。

拿8B模型來說，傳統(tǒng)BF16格式要占大約16GB顯存，這個數(shù)字已經(jīng)超過絕大多數(shù)手機(jī)的內(nèi)存容量了，更別提還要留給其他應(yīng)用空間。

BitCPM-CANN把它壓縮到2-3GB，手機(jī)內(nèi)存就能輕松跑起來。手機(jī)廠商不需要為了跑大模型去堆昂貴的超大內(nèi)存，普通旗艦機(jī)就能流暢運(yùn)行8B級別的對話模型。

如果再往前走一步，結(jié)合MoE架構(gòu)——每次只激活一部分參數(shù)——未來甚至有望把60B級別的模型塞進(jìn)筆記本電腦、平板，甚至高端手機(jī)里。

硬件這邊也在同步推進(jìn)。高通的8850/8397等新一代端側(cè)芯片，已經(jīng)原生支持2-bit以下的低比特推理。芯片廠商早就把跑道鋪好了，就差一個好模型。BitCPM-CANN剛好提供1.58-bit的權(quán)重，跟硬件能力完美匹配。

更值得關(guān)注的是，BitCPM-CANN全都基于華為昇騰芯片搭建，實現(xiàn)了全鏈路原生適配國產(chǎn)算力，跟英偉達(dá)CUDA生態(tài)沒有依賴關(guān)系。

這意味著其整個訓(xùn)練流程——前向計算、反向傳播、量化算子的實現(xiàn)、分布式訓(xùn)練的調(diào)度——全部在昇騰上原生完成，中間不需要去CUDA上跑一遍驗證再搬回來。

這是昇騰平臺上第一個完整跑通1.58-bit訓(xùn)練，并且做了全精度對標(biāo)評測的公開成果，模型規(guī)模直接推到了8B量級，不是幾百兆的小模型演示。

國產(chǎn)NPU在大規(guī)模三值量化訓(xùn)練這個方向上，之前幾乎沒有公開的系統(tǒng)化成果，BitCPM-CANN算是把這塊空白補(bǔ)上了。

未來，昇騰生態(tài)里的低比特模型研發(fā)，都可以依托這套底座往前走。環(huán)境層、長序列支持、并行策略、融合算子、調(diào)試工具，一套鏈路已經(jīng)沉淀下來了。后續(xù)其他團(tuán)隊想在昇騰上做低比特訓(xùn)練，不需要再從零開始踩坑。

國產(chǎn)芯片、國產(chǎn)模型、國產(chǎn)訓(xùn)練框架一體化的自主產(chǎn)業(yè)鏈條，正在一點點變成現(xiàn)實。

三、四年深耕，全棧自研：面壁智能如何掌握端側(cè)AI話語權(quán)？

BitCPM-CANN并非憑空出現(xiàn)，而是面壁智能在端側(cè)AI這條路線上長期深耕的自然結(jié)果。

針對端側(cè)AI，面壁已形成自己的模型矩陣——“小鋼炮”系列（MiniCPM）。顧名思義，這是參數(shù)雖小、能力卻強(qiáng)的一系列模型。MiniCPM在GitHub上累計收獲超3萬星標(biāo)，Hugging Face開源總下載量超過3000萬，成為中國端側(cè)AI領(lǐng)域最受歡迎的開源模型家族之一。

但把時間撥回面壁成立之初，情況遠(yuǎn)沒有這么樂觀。2022年，國產(chǎn)芯片在訓(xùn)練大模型上尚不成熟，國內(nèi)AI基礎(chǔ)設(shè)施與國外差距明顯。也正因如此，絕大多數(shù)公司選擇了最省事的路徑——直接依賴英偉達(dá)CUDA生態(tài)。

然而，面壁智能卻做了一個截然不同的決定：自己寫框架，自己搭底座。面壁智能從一開始就不綁定CUDA，換句話說，面壁智能的工程師從頭就已經(jīng)在親手解決那些底層問題，例如顯存怎么分配、通信怎么優(yōu)化、算子怎么融合。

更重要的是，這個起點引發(fā)了一連串的技術(shù)積累。此后，他們自研了一套訓(xùn)練框架，取名BM-Train（Big Model Train）。

從稀疏架構(gòu)InfLLM到低比特量化方法BitCPM、推理框架CPM.cu，面壁智能逐步構(gòu)建起覆蓋訓(xùn)練到推理的全棧端側(cè)技術(shù)體系。正是這些積累，讓面壁智能能夠把驗證成熟的1.58-bit訓(xùn)練方法，完整地搬到昇騰平臺上，做出BitCPM-CANN，從底層算子到訓(xùn)練框架，全鏈路在昇騰原生跑通。

更難得的是，他們在國產(chǎn)芯片生態(tài)上的積累遠(yuǎn)不止昇騰一家。此前，面壁智能曾參與協(xié)助華為昇騰、鯤鵬，以及寒武紀(jì)、天數(shù)智芯等國產(chǎn)芯片構(gòu)建和優(yōu)化軟件棧。這些經(jīng)歷讓面壁智能建立起了對國產(chǎn)芯片生態(tài)的獨特認(rèn)知：知道坑在哪，也知道怎么繞過去。

端側(cè)大模型的性能釋放，離不開模型廠商與芯片廠商的共同投入。在這個賽道上，面壁智能追求的從來不只是參與，而是成為推動者與構(gòu)建者。

結(jié)語：硬件受限，模型效率先行

過去兩年，行業(yè)把Scaling Law奉為圭臬，算力成了唯一的門檻。

而BitCPM-CANN代表了另一條路線：在硬件給定的前提下，把模型的信息密度推向極限。更重要的是，BitCPM-CANN證明了這條路線可以在國產(chǎn)算力上完整跑通。

回到最開頭的那個問題“在硬件受限的情況下，國產(chǎn)模型廠商，該怎么繼續(xù)做大模型？”

面壁智能用BitCPM-CANN給出了答案：當(dāng)硬件追趕需要時間，模型效率可以先行。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.