編輯|冷貓
眾所周知,大模型訓(xùn)練成本極高。
但大家又知道,降低訓(xùn)練精度能夠顯著降低訓(xùn)練成本。DeepSeek-V3 用 FP8 訓(xùn)練把成本打到了 560 萬美元,已經(jīng)讓全行業(yè)側(cè)目。
在 FP8 成功后,行業(yè)仍然在不斷探索低精度的邊界:從 FP8 降到 FP4,訓(xùn)練成本還能再降多少?
理論上,F(xiàn)P4 的計(jì)算吞吐可以是 FP8 的兩倍。NVIDIA Blackwell 和 AMD MI350 系列都已經(jīng)在硬件層面原生支持了 FP4 運(yùn)算,前者在 B200 上標(biāo)稱 FP4 算力可達(dá) 4500 TOPS(稀疏)。硬件已經(jīng)準(zhǔn)備好了,但軟件和算法那一側(cè),一直卡在一個(gè)問題上:
用 FP4 從頭訓(xùn)練大模型,訓(xùn)練過程非常不穩(wěn)定。
過去兩年里,LLM-FP4、NVFP4 預(yù)訓(xùn)練等工作陸續(xù)嘗試了這條路,但鮮有方案能在 4 比特精度下干凈利落地跑通全流程預(yù)訓(xùn)練,同時(shí)保持接近 FP8 的收斂質(zhì)量。
更棘手的是,崩潰的原因一直不清楚,分析認(rèn)為,F(xiàn)P4 訓(xùn)練不穩(wěn)定的原因很可能來自隨機(jī)性不足。
但就在最近,AMD 聯(lián)合賓夕法尼亞州立大學(xué)發(fā)布了一篇論文,顛覆了傳統(tǒng)的認(rèn)知,為原生 FP4 訓(xùn)練給出了一個(gè)全新的清晰診斷。
![]()
- 論文標(biāo)題:Pretraining large language models with MXFP4 on Native FP4 Hardware
- 論文鏈接:https://arxiv.org/abs/2605.09825
這篇論文在 AMD Instinct MI355X GPU 上,用 MXFP4 格式完成了 Llama 3.1-8B 的全流程預(yù)訓(xùn)練,端到端訓(xùn)練速度比 FP8 基線快 9-10%,token 開銷僅多 8-9%。這是目前第一個(gè)在原生 FP4 硬件(非軟件模擬)上完成大模型預(yù)訓(xùn)練的完整實(shí)驗(yàn)。
更重要的是,論文揭示了核心問題:FP4 訓(xùn)練的不穩(wěn)定性的來源不是隨機(jī)性不足,是結(jié)構(gòu)性微縮放誤差沿敏感梯度路徑累積放大。
MXFP4 是什么
在拆解論文之前,有必要先理解 MXFP4 這個(gè)數(shù)據(jù)格式。
傳統(tǒng)的整數(shù)量化通常對(duì)整個(gè)張量使用一個(gè)縮放因子。MXFP4 的核心設(shè)計(jì)叫「微縮放」(Micro-scaling):把一個(gè)張量切成小塊(比如每 32 個(gè)元素一組),為每個(gè)小塊分配一個(gè)共享指數(shù)(E8M0 格式),塊內(nèi)的每個(gè)元素用 4 比特浮點(diǎn)數(shù)表示。重建公式可以寫成:
![]()
其中 E_shared 是塊內(nèi)最大指數(shù),Q_FP4 是最近舍入到 4 比特浮點(diǎn)可表示值。
微縮放的好處在于:每個(gè)小塊有自己的動(dòng)態(tài)范圍,不會(huì)被全局異常值「綁架」。這讓 4 比特浮點(diǎn)數(shù)的表示質(zhì)量比樸素的全局量化好很多。
但即便有了微縮放,F(xiàn)P4 訓(xùn)練依然不穩(wěn)定。
排查實(shí)驗(yàn):不穩(wěn)定的根源
研究團(tuán)隊(duì)先設(shè)計(jì)了一個(gè)逐步排查的控制實(shí)驗(yàn)。
一次完整的 Transformer 線性層計(jì)算,涉及三個(gè)通用矩陣乘法操作:
- Fprop(前向傳播):計(jì)算 Y = XW^T,產(chǎn)出激活值
- Dgrad(激活梯度):計(jì)算 ?X = ?Y · W,將梯度回傳給輸入
- Wgrad(權(quán)重梯度):計(jì)算 ?W = (?Y)^T · X,產(chǎn)出用于更新權(quán)重的梯度
研究團(tuán)隊(duì)保持其他所有因素不變,逐步把這三個(gè)操作從 FP8 替換成 MXFP4,觀察每一步對(duì)收斂的影響。所有實(shí)驗(yàn)都在 AMD Instinct MI355X 上用原生 FP4 tensor core 執(zhí)行,不依賴軟件模擬。
訓(xùn)練任務(wù)是 MLPerf 標(biāo)準(zhǔn)設(shè)置,在 C4 數(shù)據(jù)集上預(yù)訓(xùn)練 Llama 3.1-8B,收斂目標(biāo)是驗(yàn)證集困惑度達(dá)到 3.3。
前兩步只帶來了溫和的額外 token 開銷,但一旦把 Wgrad 也換成 MXFP4,開銷直接跳到 26-27%。
Wgrad 是 FP4 訓(xùn)練的瓶頸所在。前向傳播和激活梯度對(duì) FP4 量化有相當(dāng)?shù)娜萑潭龋珯?quán)重梯度一旦被量化到 4 比特,收斂質(zhì)量就出現(xiàn)了顯著退化。
業(yè)界此前的主流直覺是:FP4 量化誤差本質(zhì)上是噪聲問題,因此可以通過注入隨機(jī)性來「平滑」誤差分布。兩種常見策略是:
- 隨機(jī)舍入(Stochastic Rounding):在量化時(shí)引入隨機(jī)性,使舍入誤差的期望值為零
- 隨機(jī) Hadamard 旋轉(zhuǎn)(Randomized Hadamard):在量化前用帶隨機(jī)符號(hào)翻轉(zhuǎn)的 Hadamard 變換打散數(shù)據(jù)分布
![]()
當(dāng) Wgrad 被量化后,兩種隨機(jī)性策略不僅沒有穩(wěn)定訓(xùn)練,反而直接導(dǎo)致了不收斂。隨機(jī)性非但沒有幫忙,還在關(guān)鍵的梯度路徑上引入了更多有效量化誤差。
相比之下,確定性 Hadamard 旋轉(zhuǎn)一把將全流程 token 開銷從 26-27% 壓回到 8-9%,訓(xùn)練軌跡緊密跟蹤 FP8 基線。
這是一個(gè)非常有診斷價(jià)值的結(jié)果。隨機(jī)和確定性 Hadamard 旋轉(zhuǎn)都是正交變換,都能打散異常值的能量分布,理論上對(duì)量化誤差的緩解效果應(yīng)該類似。但它們?cè)?Wgrad 場(chǎng)景下的表現(xiàn)截然相反,這揭示了問題的本質(zhì):
FP4 訓(xùn)練的不穩(wěn)定性,是由 MXFP4 微縮放在敏感梯度路徑上產(chǎn)生的結(jié)構(gòu)性誤差驅(qū)動(dòng)的。隨機(jī)性策略失敗是因?yàn)樗鼈冊(cè)诿恳徊揭肓瞬煌恼`差模式(pattern),而這些變化的誤差模式沿梯度路徑累積,反而放大了不穩(wěn)定性。確定性旋轉(zhuǎn)之所以有效,恰恰因?yàn)樗诿恳徊绞┘酉嗤淖儞Q,讓誤差模式保持一致,避免了誤差累積。
端到端效率:訓(xùn)練步吞吐 +20%,綜合加速 9-10%
把確定性 Hadamard 旋轉(zhuǎn)加上全流程 MXFP4 之后,效率數(shù)據(jù)如下:
![]()
訓(xùn)練步吞吐提升了 20%,扣掉多出的 8-9% token 開銷之后,端到端綜合加速仍有9-10%。
考慮到這是把精度從 8 比特直接砍到 4 比特,這個(gè)收斂質(zhì)量和加速幅度都相當(dāng)可觀。
![]()
左圖:在 C4 數(shù)據(jù)集上進(jìn)行 MLPerf 預(yù)訓(xùn)練時(shí),Llama 3.1–8B 的驗(yàn)證困惑度隨訓(xùn)練 token 數(shù)變化的曲線。結(jié)果顯示,MXFP4 + 確定性 Hadamard 與 FP8 的表現(xiàn)非常接近,而未進(jìn)行穩(wěn)定化處理的全流程 MXFP4 收斂速度更慢,訓(xùn)練穩(wěn)定性也更差。右圖:訓(xùn)練后期的局部放大視圖。MLPerf 的目標(biāo)困惑度為 3.3。與未穩(wěn)定化的 MXFP4 運(yùn)行相比,確定性 Hadamard(H16)能夠與 FP8 基線保持更緊密的一致性。
值得注意的是,作者在論文中明確強(qiáng)調(diào)了一項(xiàng)重要限制:這套 FP4 訓(xùn)練方案(MLPerf C4 數(shù)據(jù)集 + Llama 3.1-8B)的效果已經(jīng)得到驗(yàn)證,但不能直接假設(shè)它能無縫遷移到所有模型、所有數(shù)據(jù)集和所有訓(xùn)練方法。FP4 訓(xùn)練的行為可能是高度設(shè)置依賴的,具體的穩(wěn)定策略需要根據(jù)場(chǎng)景重新驗(yàn)證。
結(jié)語
把這篇論文放到更大的產(chǎn)業(yè)脈絡(luò)里,至少有三層意義。
第一層:它回答了一個(gè)根本性的「為什么」。過去的 FP4 訓(xùn)練工作大多聚焦于「怎么讓它不崩」,這篇論文第一次給出了清晰的因果診斷:崩潰源于 Wgrad 路徑上的結(jié)構(gòu)性微縮放誤差,而非隨機(jī)性不足。這個(gè)診斷本身就具有方法論價(jià)值,它告訴后續(xù)研究者:在低精度訓(xùn)練中遇到不穩(wěn)定性時(shí),應(yīng)該優(yōu)先排查結(jié)構(gòu)性誤差源,而非盲目增加隨機(jī)性。
第二層:它把 FP4 從「推理專屬」推向了「訓(xùn)練可用」。此前行業(yè)共識(shí)是 FP4 只適合推理量化,訓(xùn)練至少要用 FP8。NVIDIA 在 Blackwell 上主推 FP4 推理而非訓(xùn)練,也反映了這一判斷。這篇論文在原生 FP4 硬件上跑通了全流程預(yù)訓(xùn)練,意味著 MI355X 和 Blackwell 上那些為推理準(zhǔn)備的 FP4 算力,理論上也可以用來訓(xùn)練。如果 FP4 訓(xùn)練在更大模型和更多場(chǎng)景上被驗(yàn)證可行,等于現(xiàn)有硬件的可用訓(xùn)練算力直接翻倍。
第三層:它使用了 OCP 開放標(biāo)準(zhǔn)。MXFP4 是 OCP Microscaling 格式標(biāo)準(zhǔn)的一部分,背后有 AMD、NVIDIA、Intel、Meta、Microsoft、Arm、Qualcomm 七家公司聯(lián)合支持。基于開放標(biāo)準(zhǔn)意味著這套方法在不同廠商的硬件上都有可移植性,不會(huì)被鎖定在單一生態(tài)里。
從 FP16 到 FP8,DeepSeek-V3 已經(jīng)證明精度減半可以大幅降低訓(xùn)練成本。從 FP8 到 FP4,這篇論文邁出了關(guān)鍵的第一步。精度每砍一刀,整個(gè)大模型訓(xùn)練的經(jīng)濟(jì)性都在發(fā)生轉(zhuǎn)變。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.