无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

AMD新論文顛覆認(rèn)知:FP4訓(xùn)練不穩(wěn)定,原因不是隨機(jī)性不足

0
分享至

編輯|冷貓


眾所周知,大模型訓(xùn)練成本極高。

但大家又知道,降低訓(xùn)練精度能夠顯著降低訓(xùn)練成本。DeepSeek-V3 用 FP8 訓(xùn)練把成本打到了 560 萬美元,已經(jīng)讓全行業(yè)側(cè)目。

在 FP8 成功后,行業(yè)仍然在不斷探索低精度的邊界:從 FP8 降到 FP4,訓(xùn)練成本還能再降多少?

理論上,F(xiàn)P4 的計(jì)算吞吐可以是 FP8 的兩倍。NVIDIA Blackwell 和 AMD MI350 系列都已經(jīng)在硬件層面原生支持了 FP4 運(yùn)算,前者在 B200 上標(biāo)稱 FP4 算力可達(dá) 4500 TOPS(稀疏)。硬件已經(jīng)準(zhǔn)備好了,但軟件和算法那一側(cè),一直卡在一個(gè)問題上:

用 FP4 從頭訓(xùn)練大模型,訓(xùn)練過程非常不穩(wěn)定。

過去兩年里,LLM-FP4、NVFP4 預(yù)訓(xùn)練等工作陸續(xù)嘗試了這條路,但鮮有方案能在 4 比特精度下干凈利落地跑通全流程預(yù)訓(xùn)練,同時(shí)保持接近 FP8 的收斂質(zhì)量。

更棘手的是,崩潰的原因一直不清楚,分析認(rèn)為,F(xiàn)P4 訓(xùn)練不穩(wěn)定的原因很可能來自隨機(jī)性不足。

但就在最近,AMD 聯(lián)合賓夕法尼亞州立大學(xué)發(fā)布了一篇論文,顛覆了傳統(tǒng)的認(rèn)知,為原生 FP4 訓(xùn)練給出了一個(gè)全新的清晰診斷。



  • 論文標(biāo)題:Pretraining large language models with MXFP4 on Native FP4 Hardware
  • 論文鏈接:https://arxiv.org/abs/2605.09825

這篇論文在 AMD Instinct MI355X GPU 上,用 MXFP4 格式完成了 Llama 3.1-8B 的全流程預(yù)訓(xùn)練,端到端訓(xùn)練速度比 FP8 基線快 9-10%,token 開銷僅多 8-9%。這是目前第一個(gè)在原生 FP4 硬件(非軟件模擬)上完成大模型預(yù)訓(xùn)練的完整實(shí)驗(yàn)。

更重要的是,論文揭示了核心問題:FP4 訓(xùn)練的不穩(wěn)定性的來源不是隨機(jī)性不足,是結(jié)構(gòu)性微縮放誤差沿敏感梯度路徑累積放大。

MXFP4 是什么

在拆解論文之前,有必要先理解 MXFP4 這個(gè)數(shù)據(jù)格式。

傳統(tǒng)的整數(shù)量化通常對(duì)整個(gè)張量使用一個(gè)縮放因子。MXFP4 的核心設(shè)計(jì)叫「微縮放」(Micro-scaling):把一個(gè)張量切成小塊(比如每 32 個(gè)元素一組),為每個(gè)小塊分配一個(gè)共享指數(shù)(E8M0 格式),塊內(nèi)的每個(gè)元素用 4 比特浮點(diǎn)數(shù)表示。重建公式可以寫成:



其中 E_shared 是塊內(nèi)最大指數(shù),Q_FP4 是最近舍入到 4 比特浮點(diǎn)可表示值。

微縮放的好處在于:每個(gè)小塊有自己的動(dòng)態(tài)范圍,不會(huì)被全局異常值「綁架」。這讓 4 比特浮點(diǎn)數(shù)的表示質(zhì)量比樸素的全局量化好很多。

但即便有了微縮放,F(xiàn)P4 訓(xùn)練依然不穩(wěn)定。

排查實(shí)驗(yàn):不穩(wěn)定的根源

研究團(tuán)隊(duì)先設(shè)計(jì)了一個(gè)逐步排查的控制實(shí)驗(yàn)。

一次完整的 Transformer 線性層計(jì)算,涉及三個(gè)通用矩陣乘法操作:

  • Fprop(前向傳播):計(jì)算 Y = XW^T,產(chǎn)出激活值
  • Dgrad(激活梯度):計(jì)算 ?X = ?Y · W,將梯度回傳給輸入
  • Wgrad(權(quán)重梯度):計(jì)算 ?W = (?Y)^T · X,產(chǎn)出用于更新權(quán)重的梯度

研究團(tuán)隊(duì)保持其他所有因素不變,逐步把這三個(gè)操作從 FP8 替換成 MXFP4,觀察每一步對(duì)收斂的影響。所有實(shí)驗(yàn)都在 AMD Instinct MI355X 上用原生 FP4 tensor core 執(zhí)行,不依賴軟件模擬。

訓(xùn)練任務(wù)是 MLPerf 標(biāo)準(zhǔn)設(shè)置,在 C4 數(shù)據(jù)集上預(yù)訓(xùn)練 Llama 3.1-8B,收斂目標(biāo)是驗(yàn)證集困惑度達(dá)到 3.3。

前兩步只帶來了溫和的額外 token 開銷,但一旦把 Wgrad 也換成 MXFP4,開銷直接跳到 26-27%。

Wgrad 是 FP4 訓(xùn)練的瓶頸所在。前向傳播和激活梯度對(duì) FP4 量化有相當(dāng)?shù)娜萑潭龋珯?quán)重梯度一旦被量化到 4 比特,收斂質(zhì)量就出現(xiàn)了顯著退化。

業(yè)界此前的主流直覺是:FP4 量化誤差本質(zhì)上是噪聲問題,因此可以通過注入隨機(jī)性來「平滑」誤差分布。兩種常見策略是:

  • 隨機(jī)舍入(Stochastic Rounding):在量化時(shí)引入隨機(jī)性,使舍入誤差的期望值為零
  • 隨機(jī) Hadamard 旋轉(zhuǎn)(Randomized Hadamard):在量化前用帶隨機(jī)符號(hào)翻轉(zhuǎn)的 Hadamard 變換打散數(shù)據(jù)分布



當(dāng) Wgrad 被量化后,兩種隨機(jī)性策略不僅沒有穩(wěn)定訓(xùn)練,反而直接導(dǎo)致了不收斂。隨機(jī)性非但沒有幫忙,還在關(guān)鍵的梯度路徑上引入了更多有效量化誤差。

相比之下,確定性 Hadamard 旋轉(zhuǎn)一把將全流程 token 開銷從 26-27% 壓回到 8-9%,訓(xùn)練軌跡緊密跟蹤 FP8 基線。

這是一個(gè)非常有診斷價(jià)值的結(jié)果。隨機(jī)和確定性 Hadamard 旋轉(zhuǎn)都是正交變換,都能打散異常值的能量分布,理論上對(duì)量化誤差的緩解效果應(yīng)該類似。但它們?cè)?Wgrad 場(chǎng)景下的表現(xiàn)截然相反,這揭示了問題的本質(zhì):

FP4 訓(xùn)練的不穩(wěn)定性,是由 MXFP4 微縮放在敏感梯度路徑上產(chǎn)生的結(jié)構(gòu)性誤差驅(qū)動(dòng)的。隨機(jī)性策略失敗是因?yàn)樗鼈冊(cè)诿恳徊揭肓瞬煌恼`差模式(pattern),而這些變化的誤差模式沿梯度路徑累積,反而放大了不穩(wěn)定性。確定性旋轉(zhuǎn)之所以有效,恰恰因?yàn)樗诿恳徊绞┘酉嗤淖儞Q,讓誤差模式保持一致,避免了誤差累積。

端到端效率:訓(xùn)練步吞吐 +20%,綜合加速 9-10%

把確定性 Hadamard 旋轉(zhuǎn)加上全流程 MXFP4 之后,效率數(shù)據(jù)如下:



訓(xùn)練步吞吐提升了 20%,扣掉多出的 8-9% token 開銷之后,端到端綜合加速仍有9-10%。

考慮到這是把精度從 8 比特直接砍到 4 比特,這個(gè)收斂質(zhì)量和加速幅度都相當(dāng)可觀。



左圖:在 C4 數(shù)據(jù)集上進(jìn)行 MLPerf 預(yù)訓(xùn)練時(shí),Llama 3.1–8B 的驗(yàn)證困惑度隨訓(xùn)練 token 數(shù)變化的曲線。結(jié)果顯示,MXFP4 + 確定性 Hadamard 與 FP8 的表現(xiàn)非常接近,而未進(jìn)行穩(wěn)定化處理的全流程 MXFP4 收斂速度更慢,訓(xùn)練穩(wěn)定性也更差。右圖:訓(xùn)練后期的局部放大視圖。MLPerf 的目標(biāo)困惑度為 3.3。與未穩(wěn)定化的 MXFP4 運(yùn)行相比,確定性 Hadamard(H16)能夠與 FP8 基線保持更緊密的一致性。

值得注意的是,作者在論文中明確強(qiáng)調(diào)了一項(xiàng)重要限制:這套 FP4 訓(xùn)練方案(MLPerf C4 數(shù)據(jù)集 + Llama 3.1-8B)的效果已經(jīng)得到驗(yàn)證,但不能直接假設(shè)它能無縫遷移到所有模型、所有數(shù)據(jù)集和所有訓(xùn)練方法。FP4 訓(xùn)練的行為可能是高度設(shè)置依賴的,具體的穩(wěn)定策略需要根據(jù)場(chǎng)景重新驗(yàn)證。

結(jié)語

把這篇論文放到更大的產(chǎn)業(yè)脈絡(luò)里,至少有三層意義。

第一層:它回答了一個(gè)根本性的「為什么」。過去的 FP4 訓(xùn)練工作大多聚焦于「怎么讓它不崩」,這篇論文第一次給出了清晰的因果診斷:崩潰源于 Wgrad 路徑上的結(jié)構(gòu)性微縮放誤差,而非隨機(jī)性不足。這個(gè)診斷本身就具有方法論價(jià)值,它告訴后續(xù)研究者:在低精度訓(xùn)練中遇到不穩(wěn)定性時(shí),應(yīng)該優(yōu)先排查結(jié)構(gòu)性誤差源,而非盲目增加隨機(jī)性。

第二層:它把 FP4 從「推理專屬」推向了「訓(xùn)練可用」。此前行業(yè)共識(shí)是 FP4 只適合推理量化,訓(xùn)練至少要用 FP8。NVIDIA 在 Blackwell 上主推 FP4 推理而非訓(xùn)練,也反映了這一判斷。這篇論文在原生 FP4 硬件上跑通了全流程預(yù)訓(xùn)練,意味著 MI355X 和 Blackwell 上那些為推理準(zhǔn)備的 FP4 算力,理論上也可以用來訓(xùn)練。如果 FP4 訓(xùn)練在更大模型和更多場(chǎng)景上被驗(yàn)證可行,等于現(xiàn)有硬件的可用訓(xùn)練算力直接翻倍。

第三層:它使用了 OCP 開放標(biāo)準(zhǔn)。MXFP4 是 OCP Microscaling 格式標(biāo)準(zhǔn)的一部分,背后有 AMD、NVIDIA、Intel、Meta、Microsoft、Arm、Qualcomm 七家公司聯(lián)合支持。基于開放標(biāo)準(zhǔn)意味著這套方法在不同廠商的硬件上都有可移植性,不會(huì)被鎖定在單一生態(tài)里。

從 FP16 到 FP8,DeepSeek-V3 已經(jīng)證明精度減半可以大幅降低訓(xùn)練成本。從 FP8 到 FP4,這篇論文邁出了關(guān)鍵的第一步。精度每砍一刀,整個(gè)大模型訓(xùn)練的經(jīng)濟(jì)性都在發(fā)生轉(zhuǎn)變。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
古巴8個(gè)鮮為人知的事實(shí):曾迫使數(shù)萬華人流亡,從富裕國家滑落至極度困難

古巴8個(gè)鮮為人知的事實(shí):曾迫使數(shù)萬華人流亡,從富裕國家滑落至極度困難

三言四拍
2026-05-30 13:05:06
扎哈羅娃:俄將對(duì)羅馬尼亞迅速采取報(bào)復(fù)措施

扎哈羅娃:俄將對(duì)羅馬尼亞迅速采取報(bào)復(fù)措施

參考消息
2026-05-30 11:58:56
三花智控高管“為孩子教育”減持套現(xiàn),兩千億巨頭陷熱門概念敘事與資本套現(xiàn)割裂

三花智控高管“為孩子教育”減持套現(xiàn),兩千億巨頭陷熱門概念敘事與資本套現(xiàn)割裂

每日經(jīng)濟(jì)新聞
2026-05-30 14:41:08
“結(jié)婚22年后發(fā)現(xiàn)兩兒子均非親生”當(dāng)事人發(fā)聲:我對(duì)他們恨之入骨!

“結(jié)婚22年后發(fā)現(xiàn)兩兒子均非親生”當(dāng)事人發(fā)聲:我對(duì)他們恨之入骨!

新民周刊
2026-05-30 17:32:14
兩名9歲女孩被困電梯近2小時(shí)!求救幾十次后,保安回應(yīng):不要再按電梯玩了

兩名9歲女孩被困電梯近2小時(shí)!求救幾十次后,保安回應(yīng):不要再按電梯玩了

上觀新聞
2026-05-30 19:34:29
俄烏戰(zhàn)爭(zhēng),如果俄羅斯最終贏了,你我在有生之年很可能會(huì)親歷戰(zhàn)爭(zhēng)

俄烏戰(zhàn)爭(zhēng),如果俄羅斯最終贏了,你我在有生之年很可能會(huì)親歷戰(zhàn)爭(zhēng)

混沌錄
2026-05-29 23:26:12
重磅:烏克蘭擊毀俄羅斯兩架圖142!打掉伊斯坎德爾系統(tǒng)

重磅:烏克蘭擊毀俄羅斯兩架圖142!打掉伊斯坎德爾系統(tǒng)

項(xiàng)鵬飛
2026-05-30 16:28:01
西決搶七大戰(zhàn)裁判出爐:戴維斯擔(dān)任主裁 三人執(zhí)哨兩隊(duì)勝率曝光

西決搶七大戰(zhàn)裁判出爐:戴維斯擔(dān)任主裁 三人執(zhí)哨兩隊(duì)勝率曝光

羅說NBA
2026-05-30 21:26:04
央視曝光!涉事品牌:全部下架!天熱很多人愛喝

央視曝光!涉事品牌:全部下架!天熱很多人愛喝

蓬勃新聞
2026-05-29 14:53:17
打虎!王益華被查

打虎!王益華被查

新京報(bào)
2026-05-30 20:29:17
41歲夫妻因“房事頻繁”雙雙入院,醫(yī)生提醒:每周不應(yīng)超過一個(gè)數(shù)

41歲夫妻因“房事頻繁”雙雙入院,醫(yī)生提醒:每周不應(yīng)超過一個(gè)數(shù)

醫(yī)學(xué)原創(chuàng)故事會(huì)
2026-05-29 23:34:07
伊朗濃縮鈾材料將被挖出銷毀,特朗普就伊朗戰(zhàn)事最新表態(tài)

伊朗濃縮鈾材料將被挖出銷毀,特朗普就伊朗戰(zhàn)事最新表態(tài)

上游新聞
2026-05-29 23:35:03
D1804次列車受電弓遭異物擊打,被困隧道內(nèi)超2小時(shí),乘客稱全車停電悶熱異常,身上像從水里撈出來的,備用列車已到現(xiàn)場(chǎng)并開始轉(zhuǎn)運(yùn)

D1804次列車受電弓遭異物擊打,被困隧道內(nèi)超2小時(shí),乘客稱全車停電悶熱異常,身上像從水里撈出來的,備用列車已到現(xiàn)場(chǎng)并開始轉(zhuǎn)運(yùn)

臺(tái)州交通廣播
2026-05-30 13:47:54
耿同學(xué)再下一城!南開免去陳某院長職務(wù),14張圖表確認(rèn)學(xué)術(shù)不端

耿同學(xué)再下一城!南開免去陳某院長職務(wù),14張圖表確認(rèn)學(xué)術(shù)不端

聽心堂
2026-05-30 20:24:06
中方代表:日本沒有資格談國際防務(wù)合作 須警惕軍國主義思潮借機(jī)復(fù)活

中方代表:日本沒有資格談國際防務(wù)合作 須警惕軍國主義思潮借機(jī)復(fù)活

環(huán)球網(wǎng)資訊
2026-05-30 19:36:11
禁投美股,難得全球大國中惟一正確

禁投美股,難得全球大國中惟一正確

家傳編輯部
2026-05-30 12:24:47
海南一三甲醫(yī)院空調(diào)外機(jī)安在室內(nèi)走廊,患者吐槽“看病比室外還熱”,院方回應(yīng)

海南一三甲醫(yī)院空調(diào)外機(jī)安在室內(nèi)走廊,患者吐槽“看病比室外還熱”,院方回應(yīng)

上游新聞
2026-05-30 16:05:05
中建八局資質(zhì)被正式撤銷,給全行業(yè)敲響警鐘,考公需要注意了。

中建八局資質(zhì)被正式撤銷,給全行業(yè)敲響警鐘,考公需要注意了。

解說阿洎
2026-05-29 12:34:21
最新!債務(wù)突破100萬億!

最新!債務(wù)突破100萬億!

葉初七
2026-05-30 10:28:14
網(wǎng)紅狗被偷后續(xù):男子被帶走,老婆還在哺乳期,收狗人曝更多內(nèi)情

網(wǎng)紅狗被偷后續(xù):男子被帶走,老婆還在哺乳期,收狗人曝更多內(nèi)情

閱微札記
2026-05-30 11:47:19
2026-05-31 00:19:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
13116文章數(shù) 142655關(guān)注度
往期回顧 全部

數(shù)碼要聞

NVIDIA殺入筆記本CPU市場(chǎng)!戴爾XPS確認(rèn)搭載N1X

頭條要聞

兩名9歲女孩被困電梯近2小時(shí) 求救幾十次物業(yè)無動(dòng)于衷

頭條要聞

兩名9歲女孩被困電梯近2小時(shí) 求救幾十次物業(yè)無動(dòng)于衷

體育要聞

歲月不饒人!39歲德約鏖戰(zhàn)近5小時(shí)拼到嘔吐

娛樂要聞

張碧晨《歌手》 “活人微死” 自嘲

財(cái)經(jīng)要聞

雙匯管不住一頭豬

科技要聞

車圈大佬發(fā)聲:價(jià)格戰(zhàn)遠(yuǎn)去,但競(jìng)爭(zhēng)仍殘酷

汽車要聞

900V+3.2秒破百 領(lǐng)克10+&領(lǐng)克10上市16.99萬元起

態(tài)度原創(chuàng)

游戲
本地
旅游
時(shí)尚
公開課

索尼PS第一方大作更新上線!超分來了 體驗(yàn)大加強(qiáng)

本地新聞

用剪紙的方式,打開江蘇揚(yáng)州

旅游要聞

六一帶娃去哪玩?鄭州又多了個(gè)好去處!

美回巔峰的她們,帶火的這些爆款真的好用嗎

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版