无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

QVGen讓「超低比特視頻生成量化」真正可用!

0
分享至



視頻生成擴散模型越做越大:2B、5B、14B…… 效果提升很快,但訓練與推理的成本也隨之飆升。社區一直希望用量化把模型 “壓小”,把顯存和算力成本打下來,真正落到更多卡、更便宜的機器、更多真實應用中。可現實很殘酷:一到 3/4 bit,視頻生成的量化感知訓練(QAT)往往比圖像更難訓、更不穩定,質量掉得更狠 —— 不是 “略降一點”,而是直接不可用。



圖表 1 在 CogVideoX-2B 模型上 4-bit 逐通道權重量化與逐 token 激活量化的效果對比。(a)原始模型;(b)該論文所提出方案;(c-e)已有的量化感知訓練方案;(f)已有的后訓練量化方案。

香港科技大學 & 北航 & 商湯等提出了一個專門面向視頻生成擴散模型的 QAT 范式 ——QVGen,在 3-bit / 4-bit 都能把質量拉回來,并且讓 4-bit 首次接近全精度表現成為現實。該論文現已被 ICLR 高分接收:rebuttal 前 88666(top 1.4%),rebuttal 后 88886 (top 0.5%)。



  • 論文地址:https://arxiv.org/pdf/2505.11497
  • 代碼地址:https://github.com/ModelTC/QVGen
  • 模型地址:https://huggingface.co/collections/Harahan/qvgen



圖表 2 QVGen 論文框架圖。

為什么視頻擴散模型一量化就容易 “崩”?

QVGen 的切入點很直接:視頻生成的 QAT 并不是把圖像擴散的配方照搬過來就行。作者在論文里給了一個關鍵觀察(見圖表 3):在相近規模、相似訓練設置下,視頻擴散模型的梯度范數明顯更大,這會讓優化過程更不穩定,最終導致低比特訓練難以收斂、生成質量難以維持。

換句話說,如果不先解決 “訓練不穩” 這個根因,只靠常見量化技巧做修補,視頻生成很難真正落地。



圖表 3 第一行為已有方案(藍色)與論文方案(黃色)在量化感知訓練中的梯度范數比較;第二行為損失比較。左右分別為 CogVideoX-2B 和 Wan 1.3B 模型上的可視化。

QVGen 做對了什么:先把訓練救穩,再把推理成本 “還回去”


QVGen 的核心思路是 “訓練期做增強、推理期不背包袱”,它把一個看似矛盾的目標拆成了兩步來解決 (見圖表 2)。

第一步,訓練階段引入一個輔助模塊 Φ。這個模塊不是為了讓推理更重,而是為了在低比特條件下降低梯度范數、提升訓練穩定性,讓 3/4-bit 的 QAT 先 “訓得動、訓得好”。此外,除了圖表 3 中的實驗論證,在論文中還提供了詳細的理論證明。

第二步,訓練過程中逐步移除 Φ,讓最終推理階段不再依賴這個模塊。作者的觀察是:隨著訓練推進,Φ 的參數里會逐漸出現越來越多 “貢獻很小” 的成分。于是論文設計了 rank-decay:反復做分解,識別低影響的分量,并用基于秩的正則把這些分量逐步衰減到 0,直到 Φ 被完全消掉。最終效果是:推理階段幾乎不增加額外開銷,但訓練階段又能獲得穩定性紅利。

結果有多硬:4-bit 接近全精度,3-bit 也把指標拉回 “可用區間”


在主實驗中,QVGen 在 W4A4/W3A3 的設置下對比了多類量化方法。論文給出的結論很清晰:很多方法在 4-bit 下仍有明顯退化,到了 3-bit 更加明顯;QVGen 在 3-bit 能大幅恢復質量,在 4-bit 則可以做到接近全精度(見圖表 4)。

更關鍵的是,它不只在小模型上有效。論文還展示了在更大的視頻生成模型上(例如 5B、14B 級別,以及更高分辨率設置),4-bit 仍能保持接近全精度的總體水平(見圖表 5-6)。

該論文同時給出了大量定性樣例證明 “不是只在指標上好看” (見圖表 7-8)。



圖表 4 對于 Wan 1.3B 和 CogVideoX-2B 模型,QVGen 與已有方案在 VBench 上的性能比較。



圖表 5 QVGen 在 Wan 14B 和 CogVideoX-5B 模型上的 VBench 結果。



圖表 6 QVGen 在 Wan 14B 和 CogVideoX-5B 模型上的 VBench-2.0 結果。



圖表 7 QVGen 與已有方案在 Wan 1.3B 上的可視化結果對比。



圖表 8 QVGen 在 Wan 14B 上的可視化結果。

不只是省顯存:它能帶來真實加速,還能和其他加速方法疊加


對部署來說,低比特的直接好處是顯存下降。論文報告量化后能夠帶來大幅的內存節省(例如 4× 級別的壓縮量級),從而讓同樣的模型更容易跑在更小的卡上,或者把 batch、分辨率等配置拉高。

更實際的一點是:QVGen 使用標準的均勻量化思路,意味著它可以更容易對接現有的 W4A4 推理內核。論文也強調它和其他視頻生成加速方向是正交的:例如與某些 3D attention 加速方案疊加后,推理速度還能進一步提升(見圖表 9)。



圖表 9 (左)模型大小對比; (中)模型加速對比;(右)與 attention 加速方案結合后加速對比。其中藍色代表 Wan 1.3B 模型,黃色代表 Wan 14B 模型。

訓練成本會不會更高?論文給出的答案是 “幾乎不多花”

很多讀者會擔心:訓練期加了 Φ、還要做 rank-decay,會不會導致訓練成本暴漲?論文做了訓練效率分析,結論是:相對一些蒸餾式 QAT 基線,QVGen 的額外訓練開銷很小(例如 GPU-days、峰值顯存幾乎不變的量級),但在最終生成質量上仍能拉開明顯差距(見圖表 10)。



圖表 10 QVGen 與已有方法的訓練時間和訓練顯存開銷對比。

總結:視頻擴散也能 4bit 接近滿血,先穩訓練再輕推理!


當下視頻生成擴散模型越來越大,但 3/4-bit 量化一落到視頻上,常見問題是:QAT 訓練不穩定、收斂困難、畫質明顯下滑。QVGen 的核心判斷很直接:視頻低比特量化的關鍵不只是 “怎么量化”,而是先把訓練穩定性問題解決,否則再好的量化細節也很難落地。

在這一點上,QVGen 給出了一套完整范式,主要包括:

  • 訓練期引入輔助模塊 Φ:用于降低梯度范數、提升低比特 QAT 的穩定性,讓 3/4-bit 訓練 “跑得起來、訓得下去”;
  • rank-decay 逐步移除 Φ:訓練過程中識別并衰減低貢獻成分,最終把 Φ 完全去掉,使推理階段幾乎不背額外負擔;
  • 面向部署的低比特設置:支持 W4A4/W3A3,并強調可對接現有推理實現;在顯存上帶來明顯下降,同時還能與其他推理加速方法疊加。

總體來看,QVGen 在 CogVideoX、Wan 等視頻擴散模型上實現了 4-bit 接近全精度、3-bit 也能把質量拉回可用區間的結果,并且訓練額外開銷很小。對希望把視頻生成模型從 “貴且難跑” 推進到 “更省、更快、更好用” 的場景,這是一條很實用的路線。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
巴拉圭“胸神”16年后重返世界杯,靠火辣身材爆紅,愿為贏球裸奔

巴拉圭“胸神”16年后重返世界杯,靠火辣身材爆紅,愿為贏球裸奔

深析古今
2026-06-14 15:32:00
山東一化工企業爆炸!

山東一化工企業爆炸!

濟寧人
2026-06-14 11:15:20
45歲安以軒復出,好友透露其近況:沒有工作和任何收入,靠以往積蓄投資理財,獨自照顧兩個孩子

45歲安以軒復出,好友透露其近況:沒有工作和任何收入,靠以往積蓄投資理財,獨自照顧兩個孩子

無比
2026-06-13 20:42:09
曼谷民眾送別泰國公主:烈日下街頭守候,落淚送行,靈車駛向大皇宮

曼谷民眾送別泰國公主:烈日下街頭守候,落淚送行,靈車駛向大皇宮

極目新聞
2026-06-14 18:09:18
2026,中年失業的又一悲慘版本出爐…

2026,中年失業的又一悲慘版本出爐…

慧翔百科
2026-06-12 11:21:59
昆明南博會一商品二維碼涉黃:掃碼后會跳轉至色情網站,涉事公司:被涂抹的二維碼原本關聯企業公眾號,長期疏于運維,域名遭境外“攻克”

昆明南博會一商品二維碼涉黃:掃碼后會跳轉至色情網站,涉事公司:被涂抹的二維碼原本關聯企業公眾號,長期疏于運維,域名遭境外“攻克”

大風新聞
2026-06-14 08:55:03
伊朗國足佩戴徽章紀念168名遇難兒童,隊員反問美國記者:你確定我們在美國安全嗎?你對你的國家有信心嗎?

伊朗國足佩戴徽章紀念168名遇難兒童,隊員反問美國記者:你確定我們在美國安全嗎?你對你的國家有信心嗎?

政知新媒體
2026-06-14 19:09:36
16萬人口“小國”闖世界杯,陣中還有一位華裔球星

16萬人口“小國”闖世界杯,陣中還有一位華裔球星

瀟湘晨報
2026-06-14 17:34:16
蘋果:中國大陸暫不提供最新Siri AI

蘋果:中國大陸暫不提供最新Siri AI

界面新聞
2026-06-09 06:47:41
61歲知名歌手黃大煒意外離世,他與“大外公”張學良的過往曾令人津津樂道,近一個月還在籌劃音樂事業

61歲知名歌手黃大煒意外離世,他與“大外公”張學良的過往曾令人津津樂道,近一個月還在籌劃音樂事業

極目新聞
2026-06-14 16:54:14
中央氣象臺發布暴雨黃色預警、強對流天氣藍色預警,廣東沿海局地有特大暴雨

中央氣象臺發布暴雨黃色預警、強對流天氣藍色預警,廣東沿海局地有特大暴雨

界面新聞
2026-06-14 18:10:21
93%依賴瞬間清零:日本石油進口,徹底逃離霍爾木茲!

93%依賴瞬間清零:日本石油進口,徹底逃離霍爾木茲!

寰球經緯所
2026-06-13 21:01:31
同學聚會,發現一個扎心的現實:年過40的女同學中,1/3沒有工作,1/3做著低薪但沒前途工作,剩下的1/3基本都在體制內

同學聚會,發現一個扎心的現實:年過40的女同學中,1/3沒有工作,1/3做著低薪但沒前途工作,剩下的1/3基本都在體制內

品讀時刻
2026-06-13 09:03:28
美媒曾曝中國轟炸計劃:日本敢走錯半步,將被萬枚導彈雨包大餃子

美媒曾曝中國轟炸計劃:日本敢走錯半步,將被萬枚導彈雨包大餃子

龍隱天下
2026-06-12 13:36:23
帕金斯:布倫森已是尼克斯的GOAT,以后在紐約吃飯喝酒都不用花錢了

帕金斯:布倫森已是尼克斯的GOAT,以后在紐約吃飯喝酒都不用花錢了

懂球帝
2026-06-14 15:29:22
開封3歲男童失聯新進展!救援隊爆可疑疑點,家屬疑慮,恐要成真

開封3歲男童失聯新進展!救援隊爆可疑疑點,家屬疑慮,恐要成真

奇思妙想草葉君
2026-06-13 23:24:01
打中了,打中了!伊朗導彈打出“神級精準度”!打得太準了。

打中了,打中了!伊朗導彈打出“神級精準度”!打得太準了。

小馬姨
2026-06-14 11:57:06
警鐘長鳴!國務院安委辦通報典型案例 商洛高速橋梁垮塌等事故細節公布

警鐘長鳴!國務院安委辦通報典型案例 商洛高速橋梁垮塌等事故細節公布

極目新聞
2026-06-14 09:38:49
被制裁的菲律賓防長特奧多羅家族中的許寰哥家族核心是生力集團

被制裁的菲律賓防長特奧多羅家族中的許寰哥家族核心是生力集團

阿振觀點
2026-06-14 13:13:24
伊布:梅西奪世界杯后其實已終結了梅羅之爭,但我還是覺得我更強

伊布:梅西奪世界杯后其實已終結了梅羅之爭,但我還是覺得我更強

懂球帝
2026-06-14 01:23:30
2026-06-14 20:16:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
13256文章數 142669關注度
往期回顧 全部

科技要聞

Anthropic最強模型被禁,傳亞馬遜通風報信

頭條要聞

村民砍掉"孤獨樹":砍樹前一天跟紅裙女子發生沖突

頭條要聞

村民砍掉"孤獨樹":砍樹前一天跟紅裙女子發生沖突

體育要聞

8年8隊奪冠,鄧肯那句話,現在還給了馬刺

娛樂要聞

鄧超攜子觀戰NBA,等等帥氣十足

財經要聞

金價跌至900元關口,大媽又來抄底了!

汽車要聞

綜合續航超1600km/零百加速4秒級 2027款星途ES預售18.99萬起

態度原創

本地
教育
家居
藝術
數碼

本地新聞

AK劉彰邂逅河北南大港濕地

教育要聞

高三生必看!四川省本科高校2026年招生章程要點匯總

家居要聞

空間微調 移形換境

藝術要聞

Lori Putnam | 光感拉滿的印象風景寫生

數碼要聞

明基“PD2732U”27英寸4K 60Hz專業色準顯示器發售,5299元

無障礙瀏覽 進入關懷版