无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

剛剛,謝賽寧團隊放出第二代表征自編碼器

0
分享至



編輯|Panda

AI 圖像生成通常遵循「能力越強、代價越高」的鐵律;與此同時,學界卻在悄悄質疑另一個更根本的浪費:傳統 VAE 對圖像語義幾乎一無所知,而 DINOv2、SigLIP 等視覺編碼器早已從數億張圖片中習得了豐富的視覺常識。圖像生成模型,真的需要從零開始「發明」對圖像的理解嗎?

2025 年 10 月,紐約大學謝賽寧團隊提出了「表征自編碼器(Representation Autoencoder,RAE)」框架,首次系統性地將預訓練視覺編碼器引入擴散模型的潛在空間。參閱我們的報道《VAE 時代終結?謝賽寧團隊「RAE」登場,表征自編碼器或成 DiT 訓練新基石》。

這項成果在學界引發強烈反響,但同時也暴露出三個阻礙實用落地的核心問題:重建質量不如專用 VAE、無法配合傳統引導機制、訓練收斂極慢。

五個月后,同一團隊攜手 Adobe Research 與澳大利亞國立大學,帶來了全面改進的RAEv2



  • 論文標題:Improved Baselines with Representation Autoencoders
  • 論文地址:https://arxiv.org/abs/2605.18324v1
  • 項目頁面:https://raev2.github.io

為什么 VAE 是瓶頸?

要理解這項工作的意義,先要理解 VAE 是什么,以及它為什么開始成為瓶頸。

想象一家大型圖書館。圖書館的索引系統(VAE 編碼器)負責將每一本書壓縮成一張卡片,存入一個巨大的卡片柜(潛在空間)。擴散模型在這個卡片柜里工作:從一堆雜亂的卡片出發,一步步「去噪」,最終還原出一張清晰的卡片,再由解碼器將卡片還原成完整的書。

問題在于傳統的索引卡片(VAE 潛在空間)記錄的是書的物理特征,比如厚度、顏色、字體大小。但模型真正需要的,是書的內容和含義。擴散模型每次從噪聲出發,都要自己重新學會「這是一只貓」、「這是一棵樹」,效率極低。

預訓練視覺編碼器(DINOv2 等)則截然不同。它們的索引卡片記錄的是語義:這本書講的是什么主題、出現了哪些人物、場景的空間結構如何。如果擴散模型能在這樣的潛在空間里工作,就相當于站在了巨人的肩膀上,不需要重復學習「視覺常識」。

RAE 正是這樣的系統:以預訓練編碼器為圖書館的索引系統,訓練一個解碼器來還原圖像。但第一代 RAE 的問題,是這套索引卡片只記錄了「書的最后一章摘要」,丟失了大量中間層的細節信息。

三個洞察,一次系統性升級

RAEv2 的工作核心是三個獨立但相互支撐的技術洞察。

洞察一:最后一層不是全部。

原始 RAE 直接使用視覺編碼器最后一層的輸出作為潛在表征。但預訓練編碼器的知識并非只集中在最后一層 —— 就像一個專家的完整知識體系,不只存在于他最后的結論里,也分布在他的推理過程中。

RAEv2 提出了一個極其簡潔的解法:將編碼器最后 K 層的特征直接相加,作為潛在表征。這個操作不引入任何新參數,不需要額外訓練數據(比如文字或人臉),卻讓圖像重建質量產生了質的飛躍。當 K 從 1(原始 RAE)增加到 23(全部層)時,重建誤差(rFID)從 0.60 驟降至 0.18,峰值信噪比從 18.93 dB 提升至 27.03 dB。



洞察二:RAE 和 REPA 其實是互補的,不是競爭關系。

這是整篇論文最出人意料的發現。

學界此前普遍認為:既然 RAE 已經把預訓練編碼器的特征直接用作潛在空間,就沒必要再用 REPA(表征對齊損失,將同一批編碼器特征蒸餾到擴散模型的中間層)—— 那不是多此一舉,讓同一個信號走兩條路嗎?

研究團隊橫跨 27 種視覺編碼器進行了大規模實驗,結果令人驚訝:無論哪種編碼器,REPA 和 RAE 同時使用時,效果都優于單獨使用任一方。



更有趣的是,兩者改善的是不同維度。RAE 提供的是「全局語義」,比如模型知道圖里有只貓;REPA 提供的是「空間結構」,比如模型知道貓在圖像左上角、眼睛在鼻子上方。前者對應語義信息(用線性探針準確率 LP 衡量),后者對應空間自相似性(用 LDS 衡量)。在 27 個編碼器的相關性分析中,這一互補機制得到了嚴格統計驗證,皮爾遜相關系數分別達到 -0.81(RAE 依賴 LP)和 -0.89(REPA 依賴 LDS)。

這一發現還解釋了為什么更強的編碼器 DINOv3-L,在第一代 RAE 里反而表現不如 DINOv2-B;因為原始 RAE 只利用了語義維度,而 DINOv3-L 的優勢恰恰在于兩個維度都強,RAE+REPA 才能充分發揮它的潛力。



洞察三:「引導」其實一直藏在模型里。

這是最優雅的一個技術貢獻。

圖像生成模型在推理時,通常需要一種叫做「引導」(Guidance)的機制來提升圖像質量 —— 本質是讓模型在「有條件」和「無條件」兩個狀態之間做差值,從而強化目標特征。原始 RAE 無法使用標準的分類器自由引導(CFG),只能訓練一個額外的「弱版擴散模型」來充當引導基線(AutoGuidance),這不僅增加了訓練成本,推理時也需要額外一次前向計算。



RAEv2 觀察到一個關鍵性質:REPA 在 RAE 框架下,本質上是在做「x 預測」(預測干凈的圖像表征),而 REPA 頭只能訪問模型的淺層特征,天然是一個「更弱的版本」。將主模型輸出也改寫為 x 預測格式,就可以直接用 REPA 頭作為引導基線。這樣就無需額外訓練任何模型,無需額外前向計算,引導完全「免費」。

RAEv2 的表現如何?

三個洞察組合在一起,形成了 RAEv2,帶來了可量化的全面改進。

在圖像生成質量(ImageNet-256,以 gFID 衡量,越低越好)上,RAEv2 在僅 80 個訓練 epoch 后達到 1.06。





以 FDr?這一更嚴格的評估指標衡量,RAEv2 以 80 epoch 達到 2.17,超越了原始 RAE 的最佳成績 3.26—— 后者需要十倍訓練時長且依賴后處理。



研究團隊為此引入了一個新的效率指標:EPFID@k,即「達到無引導 gFID ≤ k 所需的訓練 epoch 數」。這個指標的意義在于:絕對 gFID 數值的微小差異在實際應用中幾乎感知不到,但訓練效率的差異直接決定了誰能更快迭代、更低成本實驗。

RAE 的 EPFID@2 為 177 epoch,RAEv2 將其壓縮到了 35 epoch—— 收斂速度超過 5 倍,若與早期方法比較則達 10 倍以上。



在計算成本上,RAEv2 保持與第一代 RAE 完全相同的 189 GFLOPs,而 FLUX.1 等頂級商業模型需要 448 GFLOPs。以不到一半的算力,達到超越所有同類系統的生成質量。這是 RAEv2 最直接的工程價值。

在重建質量上,盡管只在 ImageNet 上訓練,RAEv2 的還原效果已可與 FLUX VAE、SDXL-VAE 等在大規模多樣化數據集上訓練的專有模型相媲美。



超越圖像分類:更廣的適用性

RAEv2 并未局限于 ImageNet 實驗。論文還驗證了其在兩個方向上的泛化能力。

在文本生圖方向,使用 SigLIP-2 作為編碼器的 RAEv2,在文本生圖基準上展現出與 ImageNet 實驗一致的改進趨勢,收斂速度顯著快于基于 VAE 的對比方法。



在導航世界模型方向 —— 即 AI 通過視覺預測未來幀的任務場景 ——RAEv2 同樣帶來了一致的性能提升,證明這一框架并非專為圖像生成設計的特殊技巧,而是具有跨任務通用性的基礎方法。



一個更大的賭注

RAEv2 所指向的不只是「更快的圖像生成」。

在傳統的圖像 AI 體系里,「理解圖像」和「生成圖像」是兩條平行的軌道:前者用 DINOv2、CLIP 等判別式模型,后者用 Stable Diffusion、FLUX 等生成式模型,兩者共享的只有訓練數據,而非知識體系。

RAE 框架的核心賭注是把這兩條軌道合并。如果生成模型直接在視覺理解模型的語義空間里工作,那理解和生成就共享同一套「視覺語言」,未來的統一多模態模型將具備直接在生成的圖像潛在表征上進行推理的能力。

從一個單純的「更快收斂」的工程改進出發,RAEv2 不經意間指向了一個更宏觀的問題:下一代多模態 AI 是否應當從根本上統一「看」與「畫」的底層表征?

這個問題,也許比 gFID 數字本身更值得關注。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
花生再次被關注!調查發現:糖尿病常吃花生不過半年或有4好處

花生再次被關注!調查發現:糖尿病常吃花生不過半年或有4好處

芹姐說生活
2026-05-15 23:37:01
山東22歲男子因感情糾紛殺害大12歲女友被判死緩,被害女子家屬已申請抗訴

山東22歲男子因感情糾紛殺害大12歲女友被判死緩,被害女子家屬已申請抗訴

瀟湘晨報
2026-05-20 23:22:14
突發!高市早苗瘋了!

突發!高市早苗瘋了!

財經要參
2026-05-21 09:00:03
媒體人:徐杰大概率C類合同續約,走趙睿老路,再下一份才是頂薪

媒體人:徐杰大概率C類合同續約,走趙睿老路,再下一份才是頂薪

只扣籃的教練
2026-05-21 09:45:54
配角的實力有多強?當志愿軍浴血奮戰時,朝鮮人民軍在干什么?

配角的實力有多強?當志愿軍浴血奮戰時,朝鮮人民軍在干什么?

混沌錄
2026-05-19 20:17:54
職業運動員究竟有多厲害?網友:在天賦面前,努力一文不值!

職業運動員究竟有多厲害?網友:在天賦面前,努力一文不值!

另子維愛讀史
2026-05-21 08:03:05
柳州地震捐款名單太現實!年入上億明星集體沉默

柳州地震捐款名單太現實!年入上億明星集體沉默

TVB的四小花
2026-05-21 07:39:35
俄國防部:俄軍5月19-21日舉行在侵略威脅下準備和使用核武器演習

俄國防部:俄軍5月19-21日舉行在侵略威脅下準備和使用核武器演習

俄羅斯衛星通訊社
2026-05-20 15:09:44
悲哀!山東一高中家長哭訴孩子成績不夠優秀,家長加老師微信都難

悲哀!山東一高中家長哭訴孩子成績不夠優秀,家長加老師微信都難

火山詩話
2026-05-21 10:21:06
中俄朝三面夾擊日本,東京突發大規??棺h,高市早苗被逼辭職

中俄朝三面夾擊日本,東京突發大規模抗議,高市早苗被逼辭職

手里有讀
2026-05-18 09:17:48
特朗普與普京錯峰訪華,俄方提了一個要求,中方給俄吃下定心丸

特朗普與普京錯峰訪華,俄方提了一個要求,中方給俄吃下定心丸

羽逸地之光
2026-05-21 07:12:28
他們終于把“防人”這件事,做到了極致!

他們終于把“防人”這件事,做到了極致!

胖胖說他不胖
2026-05-19 11:50:06
誰給了商家隨意更改水果本名的權力?

誰給了商家隨意更改水果本名的權力?

命運自認幽默
2026-05-21 03:49:57
男人坐牢20年出獄,去派出所重新辦身份證,結果警察看到他淚目了

男人坐牢20年出獄,去派出所重新辦身份證,結果警察看到他淚目了

白云故事
2025-04-12 17:55:08
暫別國乒,前往波蘭打球,扣除上繳國乒,何卓佳薪水還剩下多少?

暫別國乒,前往波蘭打球,扣除上繳國乒,何卓佳薪水還剩下多少?

林子說事
2026-05-20 21:44:34
男籃打成女籃,揪頭發拉手手都不吹,為了門票錢肖華拼了

男籃打成女籃,揪頭發拉手手都不吹,為了門票錢肖華拼了

兵哥籃球故事
2026-05-21 11:42:53
發射倒計時!神舟二十三號陣容大換血,3位老航天員落選

發射倒計時!神舟二十三號陣容大換血,3位老航天員落選

肖茲探秘說
2026-05-20 18:22:48
馬刺西決1-1雷霆!文班空砍21+17+6+4帽改寫歷史 末節7中2吞敗仗

馬刺西決1-1雷霆!文班空砍21+17+6+4帽改寫歷史 末節7中2吞敗仗

追球者
2026-05-21 11:10:03
秘魯大選,日裔候選人藤森慶子脫穎而出!她對中國的態度可不簡單

秘魯大選,日裔候選人藤森慶子脫穎而出!她對中國的態度可不簡單

混沌錄
2026-05-20 00:43:10
桑喬捧歐聯杯,三年三進決賽奪兩冠!巨頭觀戰等待曼聯解約后再簽

桑喬捧歐聯杯,三年三進決賽奪兩冠!巨頭觀戰等待曼聯解約后再簽

羅米的曼聯博客
2026-05-21 11:37:22
2026-05-21 12:31:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
13048文章數 142651關注度
往期回顧 全部

科技要聞

好到離譜也不夠!英偉達交出816億美元營收

頭條要聞

中國人家中常備的川貝枇杷膏 被維基百科創建專屬詞條

頭條要聞

中國人家中常備的川貝枇杷膏 被維基百科創建專屬詞條

體育要聞

常住人口7000的小鎮,擁有了一支德甲球隊

娛樂要聞

同行吐槽汪涵野心重 爆雷37萬人受損

財經要聞

英偉達業績超預!指引再新高仍不夠亮眼

汽車要聞

26.98萬起步 看小鵬GX如何詮釋一車多能以及滿配的科技與豪華

態度原創

藝術
時尚
教育
手機
家居

藝術要聞

崔雪冬 2026年油畫新作

全網首檔挑戰Al設備拍攝短劇現場直播!

教育要聞

有一種回報率很高的教育方式:大量記錄你的孩子

手機要聞

小米17T系列有國行版 海外版5月28日率先推出

家居要聞

風格碰撞 個性與藝術

無障礙瀏覽 進入關懷版