无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

FlashAR:僅用0.05%數據,讓預訓練好的自回歸圖像模型飛起來

0
分享至




背景:自回歸圖像生成的崛起與推理瓶頸

大語言模型的成功讓 "next-token prediction" 這套范式從文本延伸到了圖像領域。把圖像用視覺分詞器編碼成離散 token,再一個接一個的預測出來 —— 這就是自回歸(AR)圖像生成的核心思路。從早期的 PixelCNN、iGPT、Parti,到近期的 Emu3.5、LlamaGen、Lumina-mGPT、GLM-Image,AR 模型的生成質量已經全面逼近甚至超過了擴散模型。

但 AR 模型有個繞不開的問題:慢。標準的 raster-scan 解碼從左到右、從上到下,一步只出一個 token。生成一張 512×512 的圖要走 32×32 = 1024 步串行前向傳播,單卡耗時超過兩分鐘。延遲隨分辨率線性增長,GPU 的并行算力也用不起來 —— 高分辨率和實時場景下,基本沒法實際部署。

現有加速方案

為了突破這一瓶頸,研究者們已經探索了多種加速策略,但都面臨不同的局限:

  • 重新設計生成范式:例如如 VAR 的 "下一尺度預測"、NAR 的 "近鄰預測"、PAR 的分組并行解碼,雖然能大幅降低解碼步數,但這些方法需要從頭預訓練,無法復用已有的大規模預訓練 AR 模型,訓練成本高昂。
  • 離散擴散適配:例如 Emu3.5 原文采用的 DiDA,他們通過后訓練將 AR 模型改造為支持并行解碼的離散擴散模型。但這種方法改變了原始的預測目標,引入了預訓練和推理之間的不一致性,往往導致生成質量顯著下降,在我們的復現實驗中,相同數據量,Emu3.5 在 block diffusion 后訓練過程中,geneval 分數會在總體會有一個比較大的 drop
  • 推測解碼:作為一種無需訓練的加速插件,實際加速效果受限于草稿模型的接受率,提升效果相對比較有限。

這就引出了一個關鍵的開放性問題:能否在不從頭訓練、不改變原始預測目標的前提下,將已有的預訓練 AR 模型改造成高度并行的生成器,同時繼承其強大的生成能力?

來自浙江大學和阿德萊德大學的研究團隊提出了FlashAR—— 一個輕量級的后訓練加速框架。不需要從頭訓練,在 Emu3.5-Image-34B 模型上,僅用原始訓練數據的 0.05%(約 8 萬張圖片),就能將預訓練好的自回歸模型改造成高度并行的生成器 Emu3.5-34B-Flash,實現最高22.9 倍的端到端加速。





  • 論文標題:FlashAR: Efficient Post-Training Acceleration for Autoregressive Image Generation
  • 論文主頁:https://lxazjk.github.io/FlashAR/
  • 論文鏈接:https://arxiv.org/abs/2605.09430
  • 代碼鏈接:https://github.com/lxazjk/Emu3.5-FlashAR

核心思路:從 "逐個生成" 到 "對角線并行"

傳統的自回歸圖像生成模型遵循嚴格的光柵掃描順序 —— 從左到右、從上到下,每一步只預測水平方向的下一個 token。對于一張由 H×W 個 token 構成的圖像,需要 H×W 步才能完成生成。

FlashAR 的關鍵洞察在于:圖像天然具有 2D 結構,如果我們為模型新增垂直方向的下一個 token 的預測能力,在每個步驟中,水平解碼頭和垂直解碼頭并行工作,解碼步數從 H×W 驟降至 H+W-1。以 512×512 分辨率(16×16 下采樣倍率)為例,解碼步數從 1024 步直接降到 63 步。

但要讓一個已經訓練好的 "水平方向" 預測模型具備 "垂直方向" 預測能力,并不容易。FlashAR 為此設計了三個關鍵組件:



1. 中間層分支(Intermediate Branching)

FlashAR 沒有把輕量級的 Vertical Head 接在預訓練模型的最終層,而是從中間層分出一條支路,讓它和原有的水平預測頭并行工作。

為什么不直接用最終層?因為經過完整訓練后,最終層特征已經更偏向原本的水平方向光柵預測任務,針對這個目標做了充分適配,但也因此不一定適合再拿來做垂直方向預測。相比之下,中間層往往還保留著更豐富的二維空間信息,用來適配新的預測方向會更自然。

這樣的設計還有一個額外好處:從中間層分支之后,Vertical Head 可以和原有分支并行執行,從而為整體吞吐帶來提升。

我們也在消融實驗里驗證了這一點。具體來說,我們用 linear probing 系統評估了預訓練模型不同層的特征,結果發現,最終層特征并不是最適合做垂直預測的。這也進一步支持了我們從中間層引出 Vertical Head 的設計。



2. 可學習融合門(Learnable Fusion Gate)

水平和垂直方向的預測分別建模了互補的空間依賴,其貢獻在不同空間位置上并不一致。基于這一觀察,FlashAR 引入了一個輕量級的 MLP 融合門,在逐位置的粒度上自適應地融合兩個方向的預測結果,以避免簡單平均所導致的預測模糊。

3. 兩階段適配訓練(Two-Stage Adaptation)

具體而言,訓練過程分為兩個階段:

  • 在第一階段,凍結骨干網絡,僅優化垂直預測頭,以使其快速學習到有意義的預測能力;
  • 在第二階段,進一步聯合微調垂直預測頭和骨干網絡,使模型更好地適配新的解碼范式。這樣的漸進式訓練策略提升了后訓練過程的穩定性,并提高了數據利用效率。

在推理階段,FlashAR 還部署了硬件感知的推理優化管線:利用 FlexAttention 動態編譯稀疏的二維近鄰注意力掩碼,配合批量化 KV 緩存更新,將理論上的并行性切實轉化為真實的加速效果。

實驗結果

Emu3.5-Image-34B 加速

將 FlashAR 擴展到 340 億參數的 Emu3.5 模型上,是對框架能力的嚴格考驗:



用0.05%的原始訓練數據(80M token,約 8 萬張圖片),FlashAR 將 512×512 圖像生成速度從 130.10 秒壓縮到 5.68 秒,實現22.9 倍加速。更關鍵的是,加速幾乎不損失質量。在 GenEval 基準上,FlashAR 的 GenEval 總分僅下降 0.19 分(80.48→80.29),在顏色(+1.59)和位置(+7.00)兩個子項上甚至超過了原始模型。相比之下,BlockDiffusion 在相同設置下性能大幅下降至 73.83。

ImageNet 類別條件生成

在 ImageNet 256×256 基準上,FlashAR 在四個模型規模(B/L/XL/XXL)上全面超越現有后訓練方法 BlockDiffusion。



值得注意的是:

  • FlashAR-L 的 IS(289.0)甚至超過了從頭訓練的 NAR-L(263.9),而 FlashAR 僅需輕量級后訓練;
  • FlashAR-B 達到 447.2 img/s 的吞吐量,超過了 NAR-B(419.7 img/s);
  • FlashAR 僅需25 個 epoch的后訓練 —— 只有 BlockDiffusion 訓練量的三分之一。

為什么 FlashAR 如此高效?

我們總結了 FlashAR 的核心優勢

  • 無需從頭訓練:直接復用現有預訓練 AR 模型,通過輕量后訓練實現加速;
  • 數據極致高效:僅需 0.05% 的原始訓練數據;
  • 性能保持優異:生成質量幾乎無損,部分指標甚至提升;
  • 框架通用性強:在 LlamaGen(120M~1.4B)和 Emu3.5(34B)上均驗證有效;
  • 實際加速顯著:最高 22.9 倍端到端加速。

FlashAR 證明了一個重要觀點:通過精心設計的后訓練適配,可以在幾乎不改變原始模型訓練目標的前提下,將自回歸模型改造成高度并行的生成器,完整繼承預訓練模型的強大能力。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
古巴8個鮮為人知的事實:曾迫使數萬華人流亡,從富裕國家滑落至極度困難

古巴8個鮮為人知的事實:曾迫使數萬華人流亡,從富裕國家滑落至極度困難

三言四拍
2026-05-30 13:05:06
扎哈羅娃:俄將對羅馬尼亞迅速采取報復措施

扎哈羅娃:俄將對羅馬尼亞迅速采取報復措施

參考消息
2026-05-30 11:58:56
三花智控高管“為孩子教育”減持套現,兩千億巨頭陷熱門概念敘事與資本套現割裂

三花智控高管“為孩子教育”減持套現,兩千億巨頭陷熱門概念敘事與資本套現割裂

每日經濟新聞
2026-05-30 14:41:08
“結婚22年后發現兩兒子均非親生”當事人發聲:我對他們恨之入骨!

“結婚22年后發現兩兒子均非親生”當事人發聲:我對他們恨之入骨!

新民周刊
2026-05-30 17:32:14
兩名9歲女孩被困電梯近2小時!求救幾十次后,保安回應:不要再按電梯玩了

兩名9歲女孩被困電梯近2小時!求救幾十次后,保安回應:不要再按電梯玩了

上觀新聞
2026-05-30 19:34:29
俄烏戰爭,如果俄羅斯最終贏了,你我在有生之年很可能會親歷戰爭

俄烏戰爭,如果俄羅斯最終贏了,你我在有生之年很可能會親歷戰爭

混沌錄
2026-05-29 23:26:12
重磅:烏克蘭擊毀俄羅斯兩架圖142!打掉伊斯坎德爾系統

重磅:烏克蘭擊毀俄羅斯兩架圖142!打掉伊斯坎德爾系統

項鵬飛
2026-05-30 16:28:01
西決搶七大戰裁判出爐:戴維斯擔任主裁 三人執哨兩隊勝率曝光

西決搶七大戰裁判出爐:戴維斯擔任主裁 三人執哨兩隊勝率曝光

羅說NBA
2026-05-30 21:26:04
央視曝光!涉事品牌:全部下架!天熱很多人愛喝

央視曝光!涉事品牌:全部下架!天熱很多人愛喝

蓬勃新聞
2026-05-29 14:53:17
打虎!王益華被查

打虎!王益華被查

新京報
2026-05-30 20:29:17
41歲夫妻因“房事頻繁”雙雙入院,醫生提醒:每周不應超過一個數

41歲夫妻因“房事頻繁”雙雙入院,醫生提醒:每周不應超過一個數

醫學原創故事會
2026-05-29 23:34:07
伊朗濃縮鈾材料將被挖出銷毀,特朗普就伊朗戰事最新表態

伊朗濃縮鈾材料將被挖出銷毀,特朗普就伊朗戰事最新表態

上游新聞
2026-05-29 23:35:03
D1804次列車受電弓遭異物擊打,被困隧道內超2小時,乘客稱全車停電悶熱異常,身上像從水里撈出來的,備用列車已到現場并開始轉運

D1804次列車受電弓遭異物擊打,被困隧道內超2小時,乘客稱全車停電悶熱異常,身上像從水里撈出來的,備用列車已到現場并開始轉運

臺州交通廣播
2026-05-30 13:47:54
耿同學再下一城!南開免去陳某院長職務,14張圖表確認學術不端

耿同學再下一城!南開免去陳某院長職務,14張圖表確認學術不端

聽心堂
2026-05-30 20:24:06
中方代表:日本沒有資格談國際防務合作 須警惕軍國主義思潮借機復活

中方代表:日本沒有資格談國際防務合作 須警惕軍國主義思潮借機復活

環球網資訊
2026-05-30 19:36:11
禁投美股,難得全球大國中惟一正確

禁投美股,難得全球大國中惟一正確

家傳編輯部
2026-05-30 12:24:47
海南一三甲醫院空調外機安在室內走廊,患者吐槽“看病比室外還熱”,院方回應

海南一三甲醫院空調外機安在室內走廊,患者吐槽“看病比室外還熱”,院方回應

上游新聞
2026-05-30 16:05:05
中建八局資質被正式撤銷,給全行業敲響警鐘,考公需要注意了。

中建八局資質被正式撤銷,給全行業敲響警鐘,考公需要注意了。

解說阿洎
2026-05-29 12:34:21
最新!債務突破100萬億!

最新!債務突破100萬億!

葉初七
2026-05-30 10:28:14
網紅狗被偷后續:男子被帶走,老婆還在哺乳期,收狗人曝更多內情

網紅狗被偷后續:男子被帶走,老婆還在哺乳期,收狗人曝更多內情

閱微札記
2026-05-30 11:47:19
2026-05-31 00:19:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
13116文章數 142655關注度
往期回顧 全部

科技要聞

車圈大佬發聲:價格戰遠去,但競爭仍殘酷

頭條要聞

兩名9歲女孩被困電梯近2小時 求救幾十次物業無動于衷

頭條要聞

兩名9歲女孩被困電梯近2小時 求救幾十次物業無動于衷

體育要聞

歲月不饒人!39歲德約鏖戰近5小時拼到嘔吐

娛樂要聞

張碧晨《歌手》 “活人微死” 自嘲

財經要聞

雙匯管不住一頭豬

汽車要聞

900V+3.2秒破百 領克10+&領克10上市16.99萬元起

態度原創

房產
數碼
教育
游戲
軍事航空

房產要聞

紅動五月!全國搶入核心資產,廣州盯緊凱旋新世界!

數碼要聞

消息稱微軟下周發布英偉達處理器Windows PC,戴爾也會跟進

教育要聞

別再丟分了!中考物理焦耳定律實驗,一道題搞定4 個高頻易錯點

索尼PS第一方大作更新上線!超分來了 體驗大加強

軍事要聞

美防長參加"香會" 就美中關系最新表態

無障礙瀏覽 進入關懷版