網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

挑戰(zhàn)擴(kuò)散自回歸！字節(jié)提出視覺(jué)生成第三種路線，讓模型邊畫(huà)邊改

2026-05-13 21:52:31　來(lái)源: 量子位

北京舉報(bào)

分享至

鷺羽發(fā)自凹非寺
量子位 | 公眾號(hào) QbitAI

ber！這個(gè)五一假期，我也是真夠忙的：

自拍、電影、追劇、街頭采訪、聽(tīng)音樂(lè)會(huì)，還抽空回老家結(jié)了次婚……

視頻鏈接：https://mp.weixin.qq.com/s/TAYMBnKLbiG_gtkJpC8Ekw

（咳咳）不賣(mài)關(guān)子了，其實(shí)以上這些，通通都是AI生成。

但u1s1，就這逼真的眼神和動(dòng)作，也太對(duì)味了！

它們都出自字節(jié)商業(yè)化技術(shù)團(tuán)隊(duì)研發(fā)的新一代視覺(jué)生成模型，更妙的是——

它的底層架構(gòu)，不是主流的擴(kuò)散模型，也并非近來(lái)大火的自回歸模型，而是全新的第三條路。

這篇研究論文，提出了另一種AI視覺(jué)生成構(gòu)想：

讓AI像人類(lèi)一樣畫(huà)畫(huà)，不僅可以邊畫(huà)邊改，還能復(fù)雜多畫(huà)、簡(jiǎn)單少畫(huà)。也就是生成精煉網(wǎng)絡(luò)GRN（Generative Refinement Networks）。

簡(jiǎn)單來(lái)說(shuō)，如果把AI視覺(jué)生成比作在白紙上作畫(huà)，那么現(xiàn)有的擴(kuò)散和自回歸模型各有各的優(yōu)缺點(diǎn)。

先說(shuō)擴(kuò)散模型，作為目前最常用的視覺(jué)生成架構(gòu)，還是有兩把刷子的，其所生成的視頻幾乎能夠以假亂真。

但實(shí)則它的繪畫(huà)過(guò)程還像個(gè)笨拙的學(xué)生，無(wú)論是畫(huà)簡(jiǎn)單的一顆蘋(píng)果，還是復(fù)雜的巴洛克壁畫(huà)，都必須老老實(shí)實(shí)一筆一筆畫(huà)，所以即使是復(fù)雜度天差地別的畫(huà)作，也要花費(fèi)相同的時(shí)間步數(shù)。

自回歸模型這邊，雖然天生具備畫(huà)面復(fù)雜度感知，但由于需要先將顏色離散化，畫(huà)作始終缺乏高頻細(xì)節(jié)。

它還粗心大意沒(méi)有橡皮，前面一筆畫(huà)錯(cuò)了，不僅不改，還會(huì)“自由發(fā)揮”越畫(huà)越離譜。

GRN則從根本上解決了這些問(wèn)題，知錯(cuò)就改，可以在畫(huà)的過(guò)程中就不斷修改細(xì)化，直到滿意為止。

比如下面這些風(fēng)格多樣的頭像，都是生成精煉網(wǎng)絡(luò)所畫(huà)。

再比如這些，all by GRN。

類(lèi)別生圖、文生圖、文生視頻、圖生視頻，GRN樣樣手拿把掐。

畢竟懂的都懂，“允許犯錯(cuò)、及時(shí)糾正”，這套一以貫之的思路真的很字節(jié)范兒～（doge）

實(shí)測(cè)架構(gòu)性能

說(shuō)一千道一萬(wàn)，咱再來(lái)仔細(xì)實(shí)測(cè)看看。

目前GRN T2I模型直接在HuggingFace就能體驗(yàn)（
https://huggingface.co/spaces/hanjian/GRN）。

可以自行調(diào)整參數(shù)，比如提示詞相關(guān)性、創(chuàng)意發(fā)散程度等。

先來(lái)生成一張80年代家庭照片。

一張80年代生日派對(duì)上拍攝的全家福。一個(gè)小男孩吹滅奶油蛋糕上的蠟燭，家人圍繞在他身邊鼓掌。

很有CCD老照片那味兒了～

再上難度，讓GRN嘗試生成一張漫畫(huà)：

Two men dressed in dark suits, red ties, and black hats. They are both wearing sunglasses and holding revolvers, pointing them directly at the viewer. The men have stern expressions on their faces. Their attire and demeanor suggest a sense of authority and menace…
兩名男子身著深色西裝、系紅色領(lǐng)帶、頭戴黑色禮帽。二人均佩戴墨鏡，手持左輪手槍?zhuān)瑯尶谥敝赣^者。兩人神情冷峻，著裝與氣場(chǎng)透著威嚴(yán)感與威懾感…

一眼望去，配色大膽、風(fēng)格鮮明，角色與構(gòu)圖也搭配和諧。

文生視頻這邊，作者開(kāi)源了2B模型，同時(shí)提供了一個(gè)Discord網(wǎng)站Demo，大家登錄Discord之后，點(diǎn)擊下面這個(gè)鏈接就可以體驗(yàn)：
http://opensource.bytedance.com/discord/invite。

在左側(cè)導(dǎo)航欄，可以找到GRN-T2V 2B模型，然后在聊天框輸入/generate_video [提示詞]即可。

先來(lái)一個(gè)單人簡(jiǎn)單場(chǎng)景的測(cè)試：

A man in an orange shirt and glasses stands before a red brick wall, holding and presenting a dark gray cylindrical object.
一名身穿橙色上衣、戴著眼鏡的男子站在紅磚墻前，手持并展示一個(gè)深灰色的圓柱形物體。

視頻鏈接：https://mp.weixin.qq.com/s/TAYMBnKLbiG_gtkJpC8Ekw

人物皮膚、面部細(xì)節(jié)和動(dòng)作流暢度都不像是只有2B參數(shù)的模型～

再看看一個(gè)多人舞蹈、鏡頭快速推進(jìn)的例子，也沒(méi)有出現(xiàn)畫(huà)面畸形的情況。

A K-pop group performs on stage with vibrant lighting and dynamic choreography, singing a song about preferring night meetings, as shown in a live broadcast.
一場(chǎng)直播畫(huà)面中，一支韓國(guó)流行偶像團(tuán)體在絢麗的舞臺(tái)燈光下登臺(tái)表演，舞步靈動(dòng)富有張力，演唱著一首偏愛(ài)夜間相約主題的歌曲。

視頻鏈接：https://mp.weixin.qq.com/s/TAYMBnKLbiG_gtkJpC8Ekw

另外，各種復(fù)雜的人物動(dòng)作和鏡頭調(diào)度，也都能一步到位，還原得相當(dāng)絲滑。

視頻鏈接：https://mp.weixin.qq.com/s/TAYMBnKLbiG_gtkJpC8Ekw

妥妥成片級(jí)表現(xiàn)，直接給到夯！

這就引出了新的問(wèn)題——

為什么團(tuán)隊(duì)要執(zhí)意跳出舒適區(qū)，探索一套全新的生成范式呢？

AI視覺(jué)生成的第三條路

這就源自團(tuán)隊(duì)對(duì)現(xiàn)有主流技術(shù)路線的洞察——

擴(kuò)散模型：雖然生成質(zhì)量高，但不夠智能。它對(duì)所有樣本，無(wú)論復(fù)雜與否，都分配相同的迭代步數(shù)，缺乏自適應(yīng)能力。
自回歸模型：通過(guò)似然估計(jì)，天然具有復(fù)雜度感知能力。但一方面，受限于離散token化，存在嚴(yán)重的信息損失。另一方面，存在誤差累計(jì)和誤差傳播的問(wèn)題，早期錯(cuò)誤無(wú)法修正，于是越錯(cuò)越離譜。

而GRN則是對(duì)二者的揚(yáng)長(zhǎng)補(bǔ)短，同時(shí)兼顧全局精調(diào)和內(nèi)容復(fù)雜度感知。

其核心架構(gòu)包括三個(gè)部分：

1、層次二叉樹(shù)量化（HBQ）

首先針對(duì)自回歸模型的離散損失，HBQ采用近乎無(wú)損的離散編碼，能夠避免在壓縮過(guò)程中丟失信息，同時(shí)實(shí)現(xiàn)圖像與視頻的統(tǒng)一建模。

具體來(lái)說(shuō)，它將VAE編碼后的連續(xù)特征映射到[-1, +1]區(qū)間，然后通過(guò)二叉樹(shù)結(jié)構(gòu)進(jìn)行多輪二進(jìn)制量化。

這樣重建誤差就會(huì)隨著量化輪數(shù)增加逐漸被分配到更精細(xì)的量化區(qū)間，量化誤差隨著輪數(shù)指數(shù)級(jí)衰減，理論上可以實(shí)現(xiàn)完全無(wú)損的量化。

最終將獲得M個(gè)二進(jìn)制標(biāo)簽，分別代表從粗到細(xì)的信息層次。

其中，GRN包含兩種預(yù)測(cè)目標(biāo)，GRN_ind是將通道維度的M位二進(jìn)制合并成一個(gè)整數(shù)標(biāo)簽進(jìn)行預(yù)測(cè)，更適合簡(jiǎn)單量化輪數(shù)少的情況；GRN_bit則是直接逐位預(yù)測(cè)二進(jìn)制值，更適合量化輪次高、模型大、任務(wù)復(fù)雜的情況，比如視頻生成。

另外，二者均采用多token并行預(yù)測(cè)，以提升生成速度。

2、全局精煉網(wǎng)絡(luò)（GRN）

至于解決誤差積累問(wèn)題，GRN引入了全局精調(diào)過(guò)程，模擬人類(lèi)繪畫(huà)過(guò)程，從隨機(jī)token圖開(kāi)始，逐輪開(kāi)始修改迭代。

首先每一步的生成狀態(tài)都由兩部分組成：

當(dāng)前已經(jīng)生成的內(nèi)容，也就是已畫(huà)好的部分([F] token)；
隨機(jī)token，模擬空白畫(huà)布 ([R] token])；

然后Transformer就會(huì)基于當(dāng)前狀態(tài)，預(yù)測(cè)一個(gè)更優(yōu)的token圖。

這個(gè)過(guò)程中，GRN需要自己從當(dāng)前輸入判斷哪些是畫(huà)好的[F] token，哪些是隨機(jī)的[R] token，然后對(duì)所有token都輸出一個(gè)refine后的結(jié)果。

當(dāng)然，如果GRN判斷是畫(huà)好的[F] token，傾向于復(fù)制輸出。對(duì)于[R] token，需要根據(jù)全局上下文的token推斷應(yīng)該畫(huà)上什么。

通過(guò)這個(gè)全局refine的更新機(jī)制，確定的token不斷增多，不確定的token反復(fù)改寫(xiě)，就像一個(gè)畫(huà)家一樣，真正做到了邊畫(huà)邊改，生成效果也越來(lái)越好，徹底解決了自回歸模型錯(cuò)誤累計(jì)、錯(cuò)誤傳播的老大難問(wèn)題！

3、復(fù)雜度感知采樣

為了避免擴(kuò)散模型一刀切的計(jì)算分配方式，GRN采用熵來(lái)衡量畫(huà)面復(fù)雜度。

計(jì)算每一步預(yù)測(cè)的平均熵，熵低意味著樣本簡(jiǎn)單，可以分配較少的推理步數(shù)，熵高則意味著樣本復(fù)雜，需要分配更多的精煉步數(shù)。

應(yīng)用復(fù)雜度感知采樣后，在對(duì)步數(shù)最敏感、參數(shù)量最小的130M模型上，推理步數(shù)能夠從總共50步變成了20~40步，平均24步，而gFID僅僅從3.56略微上升到3.79（gFID數(shù)值越小越好），真正做到了簡(jiǎn)單少畫(huà)、復(fù)雜多畫(huà)！

并且，簡(jiǎn)單的樣本20步就能搞定，復(fù)雜的樣本GRN也只分配了40步。

基于此，實(shí)驗(yàn)結(jié)果顯示，GRN在多項(xiàng)基準(zhǔn)測(cè)試中均刷新了SOTA記錄。

首先在ImageNet 256×256的圖像重建上，HBQ達(dá)到了0.56 rFID，遠(yuǎn)超SD-VAE (0.87)、RAE (0.62)、VAR（0.85)、Open-MAGVIT2（1.17)。

在視頻重建時(shí)，8輪HBQ效果與連續(xù)VAE基線標(biāo)準(zhǔn)相當(dāng)，說(shuō)明HBQ無(wú)需增加隱層通道數(shù)，就能在更高的壓縮率下逼近連續(xù)編碼質(zhì)量。

而將隱層通道從16提升至64，PSNR就會(huì)從30.40躍升至33.97，性能媲美當(dāng)前最優(yōu)的Wan 2.1，但比特?cái)?shù)減少了4倍。

在類(lèi)別-圖像生成（C2I）任務(wù)中，GRN?G（2B）的FID值為1.81，IS值為299.0，超越了DiT?XL/2、SiT?XL/2、VAR?d30、LlamaGen?XXL、JiT-G主流生成模型。

另外，相比于MaskGIT（227M），GRN?B（130M）參數(shù)量?jī)H為前者的一半，但性能實(shí)現(xiàn)反超，F(xiàn)ID從6.18降至3.56。

這也就意味著，GRN的全局精調(diào)不僅徹底解決了AR誤差積累問(wèn)題，生成質(zhì)量同時(shí)還超越主流擴(kuò)散模型。

在文生圖（T2I）任務(wù)中，GRN_bit 2B在GenEval上得分0.76，超過(guò)同為2B參數(shù)的SD3 Medium、Infinity，因?yàn)?B的參數(shù)量限制，落后于其他6B～20B等大模型，不過(guò)研究人員表示，GRN這種類(lèi)似語(yǔ)言模型的離散token建模，有很好的scaling特性，他們會(huì)在未來(lái)推出更大的模型。

在文生視頻（T2V）任務(wù)中，2B參數(shù)的GRN最高可支持480p、2~10秒高保真視頻生成，在VBench測(cè)試中，超越5B的CogVideoX、14B的Wan 2.1等模型，以及所有同規(guī)模的AR和擴(kuò)散模型。

另外，消融實(shí)驗(yàn)也證明了全局精調(diào)、復(fù)雜度感知模塊在GRN中的關(guān)鍵作用。

總的來(lái)說(shuō)，在同等參數(shù)量下，GRN已經(jīng)實(shí)現(xiàn)了比擴(kuò)散模型與傳統(tǒng)自回歸模型更聰明的生成。

它證明，在擴(kuò)散和自回歸這兩條既定路徑之外，視覺(jué)生成還有新的可能。GRN同時(shí)解決了量化損失、誤差累計(jì)、復(fù)雜度感知生成的三個(gè)問(wèn)題，在AR和Diffusion中間架起了一座橋梁。

如果再腦洞大開(kāi)一下，現(xiàn)在的dLLM或許也可以借鑒GRN的思路。

dLLM也是一次性生成，一旦早期token出錯(cuò)，后面就只能將錯(cuò)就錯(cuò)，如果像GRN一樣，引入全局精調(diào)，也許模型在生成文本后，還有機(jī)會(huì)推翻之前寫(xiě)的內(nèi)容。

這也不失為一個(gè)好的破局之道。

此外，GRN證明了純血離散token是能夠做好圖像和視頻生成的。從長(zhǎng)遠(yuǎn)來(lái)看，能夠更好地統(tǒng)一圖像、視頻、文本token，顯著提升模型的多模態(tài)理解與生成能力。

相比自回歸模型，GRN重建上限更高，對(duì)抗誤差累計(jì)能力更強(qiáng)；相比擴(kuò)散模型，GRN能更聰明地分配計(jì)算步數(shù)。GRN用優(yōu)雅的設(shè)計(jì)解決了一直以來(lái)困擾自回歸和擴(kuò)散模型的難題。

論文鏈接：
https://arxiv.org/abs/2604.13030
代碼鏈接：
https://github.com/MGenAI/GRN
HuggingFace鏈接：
https://huggingface.co/spaces/hanjian/GRN
項(xiàng)目主頁(yè)：
https://mgenai.github.io/GRN/

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.