網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

AMD新論文顛覆認(rèn)知：FP4訓(xùn)練不穩(wěn)定，原因不是隨機(jī)性不足

2026-05-27 14:39:04　來源: 機(jī)器之心Pro

天津舉報(bào)

分享至

編輯｜冷貓

眾所周知，大模型訓(xùn)練成本極高。

但大家又知道，降低訓(xùn)練精度能夠顯著降低訓(xùn)練成本。DeepSeek-V3 用 FP8 訓(xùn)練把成本打到了 560 萬美元，已經(jīng)讓全行業(yè)側(cè)目。

在 FP8 成功后，行業(yè)仍然在不斷探索低精度的邊界：從 FP8 降到 FP4，訓(xùn)練成本還能再降多少？

理論上，F(xiàn)P4 的計(jì)算吞吐可以是 FP8 的兩倍。NVIDIA Blackwell 和 AMD MI350 系列都已經(jīng)在硬件層面原生支持了 FP4 運(yùn)算，前者在 B200 上標(biāo)稱 FP4 算力可達(dá) 4500 TOPS（稀疏）。硬件已經(jīng)準(zhǔn)備好了，但軟件和算法那一側(cè)，一直卡在一個(gè)問題上：

用 FP4 從頭訓(xùn)練大模型，訓(xùn)練過程非常不穩(wěn)定。

過去兩年里，LLM-FP4、NVFP4 預(yù)訓(xùn)練等工作陸續(xù)嘗試了這條路，但鮮有方案能在 4 比特精度下干凈利落地跑通全流程預(yù)訓(xùn)練，同時(shí)保持接近 FP8 的收斂質(zhì)量。

更棘手的是，崩潰的原因一直不清楚，分析認(rèn)為，F(xiàn)P4 訓(xùn)練不穩(wěn)定的原因很可能來自隨機(jī)性不足。

但就在最近，AMD 聯(lián)合賓夕法尼亞州立大學(xué)發(fā)布了一篇論文，顛覆了傳統(tǒng)的認(rèn)知，為原生 FP4 訓(xùn)練給出了一個(gè)全新的清晰診斷。

論文標(biāo)題：Pretraining large language models with MXFP4 on Native FP4 Hardware
論文鏈接：https://arxiv.org/abs/2605.09825

這篇論文在 AMD Instinct MI355X GPU 上，用 MXFP4 格式完成了 Llama 3.1-8B 的全流程預(yù)訓(xùn)練，端到端訓(xùn)練速度比 FP8 基線快 9-10%，token 開銷僅多 8-9%。這是目前第一個(gè)在原生 FP4 硬件（非軟件模擬）上完成大模型預(yù)訓(xùn)練的完整實(shí)驗(yàn)。

更重要的是，論文揭示了核心問題：FP4 訓(xùn)練的不穩(wěn)定性的來源不是隨機(jī)性不足，是結(jié)構(gòu)性微縮放誤差沿敏感梯度路徑累積放大。

MXFP4 是什么

在拆解論文之前，有必要先理解 MXFP4 這個(gè)數(shù)據(jù)格式。

傳統(tǒng)的整數(shù)量化通常對(duì)整個(gè)張量使用一個(gè)縮放因子。MXFP4 的核心設(shè)計(jì)叫「微縮放」（Micro-scaling）：把一個(gè)張量切成小塊（比如每 32 個(gè)元素一組），為每個(gè)小塊分配一個(gè)共享指數(shù)（E8M0 格式），塊內(nèi)的每個(gè)元素用 4 比特浮點(diǎn)數(shù)表示。重建公式可以寫成：

其中 E_shared 是塊內(nèi)最大指數(shù)，Q_FP4 是最近舍入到 4 比特浮點(diǎn)可表示值。

微縮放的好處在于：每個(gè)小塊有自己的動(dòng)態(tài)范圍，不會(huì)被全局異常值「綁架」。這讓 4 比特浮點(diǎn)數(shù)的表示質(zhì)量比樸素的全局量化好很多。

但即便有了微縮放，F(xiàn)P4 訓(xùn)練依然不穩(wěn)定。

排查實(shí)驗(yàn)：不穩(wěn)定的根源

研究團(tuán)隊(duì)先設(shè)計(jì)了一個(gè)逐步排查的控制實(shí)驗(yàn)。

一次完整的 Transformer 線性層計(jì)算，涉及三個(gè)通用矩陣乘法操作：

Fprop（前向傳播）：計(jì)算 Y = XW^T，產(chǎn)出激活值
Dgrad（激活梯度）：計(jì)算 ?X = ?Y · W，將梯度回傳給輸入
Wgrad（權(quán)重梯度）：計(jì)算 ?W = （?Y）^T · X，產(chǎn)出用于更新權(quán)重的梯度

研究團(tuán)隊(duì)保持其他所有因素不變，逐步把這三個(gè)操作從 FP8 替換成 MXFP4，觀察每一步對(duì)收斂的影響。所有實(shí)驗(yàn)都在 AMD Instinct MI355X 上用原生 FP4 tensor core 執(zhí)行，不依賴軟件模擬。

訓(xùn)練任務(wù)是 MLPerf 標(biāo)準(zhǔn)設(shè)置，在 C4 數(shù)據(jù)集上預(yù)訓(xùn)練 Llama 3.1-8B，收斂目標(biāo)是驗(yàn)證集困惑度達(dá)到 3.3。

前兩步只帶來了溫和的額外 token 開銷，但一旦把 Wgrad 也換成 MXFP4，開銷直接跳到 26-27%。

Wgrad 是 FP4 訓(xùn)練的瓶頸所在。前向傳播和激活梯度對(duì) FP4 量化有相當(dāng)?shù)娜萑潭龋珯?quán)重梯度一旦被量化到 4 比特，收斂質(zhì)量就出現(xiàn)了顯著退化。

業(yè)界此前的主流直覺是：FP4 量化誤差本質(zhì)上是噪聲問題，因此可以通過注入隨機(jī)性來「平滑」誤差分布。兩種常見策略是：

隨機(jī)舍入（Stochastic Rounding）：在量化時(shí)引入隨機(jī)性，使舍入誤差的期望值為零
隨機(jī) Hadamard 旋轉(zhuǎn)（Randomized Hadamard）：在量化前用帶隨機(jī)符號(hào)翻轉(zhuǎn)的 Hadamard 變換打散數(shù)據(jù)分布

當(dāng) Wgrad 被量化后，兩種隨機(jī)性策略不僅沒有穩(wěn)定訓(xùn)練，反而直接導(dǎo)致了不收斂。隨機(jī)性非但沒有幫忙，還在關(guān)鍵的梯度路徑上引入了更多有效量化誤差。

相比之下，確定性 Hadamard 旋轉(zhuǎn)一把將全流程 token 開銷從 26-27% 壓回到 8-9%，訓(xùn)練軌跡緊密跟蹤 FP8 基線。

這是一個(gè)非常有診斷價(jià)值的結(jié)果。隨機(jī)和確定性 Hadamard 旋轉(zhuǎn)都是正交變換，都能打散異常值的能量分布，理論上對(duì)量化誤差的緩解效果應(yīng)該類似。但它們?cè)?Wgrad 場(chǎng)景下的表現(xiàn)截然相反，這揭示了問題的本質(zhì)：

FP4 訓(xùn)練的不穩(wěn)定性，是由 MXFP4 微縮放在敏感梯度路徑上產(chǎn)生的結(jié)構(gòu)性誤差驅(qū)動(dòng)的。隨機(jī)性策略失敗是因?yàn)樗鼈冊(cè)诿恳徊揭肓瞬煌恼`差模式（pattern），而這些變化的誤差模式沿梯度路徑累積，反而放大了不穩(wěn)定性。確定性旋轉(zhuǎn)之所以有效，恰恰因?yàn)樗诿恳徊绞┘酉嗤淖儞Q，讓誤差模式保持一致，避免了誤差累積。

端到端效率：訓(xùn)練步吞吐 +20%，綜合加速 9-10%

把確定性 Hadamard 旋轉(zhuǎn)加上全流程 MXFP4 之后，效率數(shù)據(jù)如下：

訓(xùn)練步吞吐提升了 20%，扣掉多出的 8-9% token 開銷之后，端到端綜合加速仍有9-10%。

考慮到這是把精度從 8 比特直接砍到 4 比特，這個(gè)收斂質(zhì)量和加速幅度都相當(dāng)可觀。

左圖：在 C4 數(shù)據(jù)集上進(jìn)行 MLPerf 預(yù)訓(xùn)練時(shí)，Llama 3.1–8B 的驗(yàn)證困惑度隨訓(xùn)練 token 數(shù)變化的曲線。結(jié)果顯示，MXFP4 + 確定性 Hadamard 與 FP8 的表現(xiàn)非常接近，而未進(jìn)行穩(wěn)定化處理的全流程 MXFP4 收斂速度更慢，訓(xùn)練穩(wěn)定性也更差。右圖：訓(xùn)練后期的局部放大視圖。MLPerf 的目標(biāo)困惑度為 3.3。與未穩(wěn)定化的 MXFP4 運(yùn)行相比，確定性 Hadamard（H16）能夠與 FP8 基線保持更緊密的一致性。

值得注意的是，作者在論文中明確強(qiáng)調(diào)了一項(xiàng)重要限制：這套 FP4 訓(xùn)練方案（MLPerf C4 數(shù)據(jù)集 + Llama 3.1-8B）的效果已經(jīng)得到驗(yàn)證，但不能直接假設(shè)它能無縫遷移到所有模型、所有數(shù)據(jù)集和所有訓(xùn)練方法。FP4 訓(xùn)練的行為可能是高度設(shè)置依賴的，具體的穩(wěn)定策略需要根據(jù)場(chǎng)景重新驗(yàn)證。

結(jié)語

把這篇論文放到更大的產(chǎn)業(yè)脈絡(luò)里，至少有三層意義。

第一層：它回答了一個(gè)根本性的「為什么」。過去的 FP4 訓(xùn)練工作大多聚焦于「怎么讓它不崩」，這篇論文第一次給出了清晰的因果診斷：崩潰源于 Wgrad 路徑上的結(jié)構(gòu)性微縮放誤差，而非隨機(jī)性不足。這個(gè)診斷本身就具有方法論價(jià)值，它告訴后續(xù)研究者：在低精度訓(xùn)練中遇到不穩(wěn)定性時(shí)，應(yīng)該優(yōu)先排查結(jié)構(gòu)性誤差源，而非盲目增加隨機(jī)性。

第二層：它把 FP4 從「推理專屬」推向了「訓(xùn)練可用」。此前行業(yè)共識(shí)是 FP4 只適合推理量化，訓(xùn)練至少要用 FP8。NVIDIA 在 Blackwell 上主推 FP4 推理而非訓(xùn)練，也反映了這一判斷。這篇論文在原生 FP4 硬件上跑通了全流程預(yù)訓(xùn)練，意味著 MI355X 和 Blackwell 上那些為推理準(zhǔn)備的 FP4 算力，理論上也可以用來訓(xùn)練。如果 FP4 訓(xùn)練在更大模型和更多場(chǎng)景上被驗(yàn)證可行，等于現(xiàn)有硬件的可用訓(xùn)練算力直接翻倍。

第三層：它使用了 OCP 開放標(biāo)準(zhǔn)。MXFP4 是 OCP Microscaling 格式標(biāo)準(zhǔn)的一部分，背后有 AMD、NVIDIA、Intel、Meta、Microsoft、Arm、Qualcomm 七家公司聯(lián)合支持。基于開放標(biāo)準(zhǔn)意味著這套方法在不同廠商的硬件上都有可移植性，不會(huì)被鎖定在單一生態(tài)里。

從 FP16 到 FP8，DeepSeek-V3 已經(jīng)證明精度減半可以大幅降低訓(xùn)練成本。從 FP8 到 FP4，這篇論文邁出了關(guān)鍵的第一步。精度每砍一刀，整個(gè)大模型訓(xùn)練的經(jīng)濟(jì)性都在發(fā)生轉(zhuǎn)變。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.