无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

剛剛，謝賽寧團隊放出第二代表征自編碼器

2026-05-21 11:15:28　來源: 機器之心Pro

河北舉報

0

分享至

編輯｜Panda

AI 圖像生成通常遵循「能力越強、代價越高」的鐵律；與此同時，學界卻在悄悄質疑另一個更根本的浪費：傳統 VAE 對圖像語義幾乎一無所知，而 DINOv2、SigLIP 等視覺編碼器早已從數億張圖片中習得了豐富的視覺常識。圖像生成模型，真的需要從零開始「發明」對圖像的理解嗎？

2025 年 10 月，紐約大學謝賽寧團隊提出了「表征自編碼器（Representation Autoencoder，RAE）」框架，首次系統性地將預訓練視覺編碼器引入擴散模型的潛在空間。參閱我們的報道《VAE 時代終結？謝賽寧團隊「RAE」登場，表征自編碼器或成 DiT 訓練新基石》。

這項成果在學界引發強烈反響，但同時也暴露出三個阻礙實用落地的核心問題：重建質量不如專用 VAE、無法配合傳統引導機制、訓練收斂極慢。

五個月后，同一團隊攜手 Adobe Research 與澳大利亞國立大學，帶來了全面改進的RAEv2

論文標題：Improved Baselines with Representation Autoencoders
論文地址：https://arxiv.org/abs/2605.18324v1
項目頁面：https://raev2.github.io

為什么 VAE 是瓶頸？

要理解這項工作的意義，先要理解 VAE 是什么，以及它為什么開始成為瓶頸。

想象一家大型圖書館。圖書館的索引系統（VAE 編碼器）負責將每一本書壓縮成一張卡片，存入一個巨大的卡片柜（潛在空間）。擴散模型在這個卡片柜里工作：從一堆雜亂的卡片出發，一步步「去噪」，最終還原出一張清晰的卡片，再由解碼器將卡片還原成完整的書。

問題在于傳統的索引卡片（VAE 潛在空間）記錄的是書的物理特征，比如厚度、顏色、字體大小。但模型真正需要的，是書的內容和含義。擴散模型每次從噪聲出發，都要自己重新學會「這是一只貓」、「這是一棵樹」，效率極低。

預訓練視覺編碼器（DINOv2 等）則截然不同。它們的索引卡片記錄的是語義：這本書講的是什么主題、出現了哪些人物、場景的空間結構如何。如果擴散模型能在這樣的潛在空間里工作，就相當于站在了巨人的肩膀上，不需要重復學習「視覺常識」。

RAE 正是這樣的系統：以預訓練編碼器為圖書館的索引系統，訓練一個解碼器來還原圖像。但第一代 RAE 的問題，是這套索引卡片只記錄了「書的最后一章摘要」，丟失了大量中間層的細節信息。

三個洞察，一次系統性升級

RAEv2 的工作核心是三個獨立但相互支撐的技術洞察。

洞察一：最后一層不是全部。

原始 RAE 直接使用視覺編碼器最后一層的輸出作為潛在表征。但預訓練編碼器的知識并非只集中在最后一層 —— 就像一個專家的完整知識體系，不只存在于他最后的結論里，也分布在他的推理過程中。

RAEv2 提出了一個極其簡潔的解法：將編碼器最后 K 層的特征直接相加，作為潛在表征。這個操作不引入任何新參數，不需要額外訓練數據（比如文字或人臉），卻讓圖像重建質量產生了質的飛躍。當 K 從 1（原始 RAE）增加到 23（全部層）時，重建誤差（rFID）從 0.60 驟降至 0.18，峰值信噪比從 18.93 dB 提升至 27.03 dB。

洞察二：RAE 和 REPA 其實是互補的，不是競爭關系。

這是整篇論文最出人意料的發現。

學界此前普遍認為：既然 RAE 已經把預訓練編碼器的特征直接用作潛在空間，就沒必要再用 REPA（表征對齊損失，將同一批編碼器特征蒸餾到擴散模型的中間層）—— 那不是多此一舉，讓同一個信號走兩條路嗎？

研究團隊橫跨 27 種視覺編碼器進行了大規模實驗，結果令人驚訝：無論哪種編碼器，REPA 和 RAE 同時使用時，效果都優于單獨使用任一方。

更有趣的是，兩者改善的是不同維度。RAE 提供的是「全局語義」，比如模型知道圖里有只貓；REPA 提供的是「空間結構」，比如模型知道貓在圖像左上角、眼睛在鼻子上方。前者對應語義信息（用線性探針準確率 LP 衡量），后者對應空間自相似性（用 LDS 衡量）。在 27 個編碼器的相關性分析中，這一互補機制得到了嚴格統計驗證，皮爾遜相關系數分別達到 -0.81（RAE 依賴 LP）和 -0.89（REPA 依賴 LDS）。

這一發現還解釋了為什么更強的編碼器 DINOv3-L，在第一代 RAE 里反而表現不如 DINOv2-B；因為原始 RAE 只利用了語義維度，而 DINOv3-L 的優勢恰恰在于兩個維度都強，RAE+REPA 才能充分發揮它的潛力。

洞察三：「引導」其實一直藏在模型里。

這是最優雅的一個技術貢獻。

圖像生成模型在推理時，通常需要一種叫做「引導」（Guidance）的機制來提升圖像質量 —— 本質是讓模型在「有條件」和「無條件」兩個狀態之間做差值，從而強化目標特征。原始 RAE 無法使用標準的分類器自由引導（CFG），只能訓練一個額外的「弱版擴散模型」來充當引導基線（AutoGuidance），這不僅增加了訓練成本，推理時也需要額外一次前向計算。

RAEv2 觀察到一個關鍵性質：REPA 在 RAE 框架下，本質上是在做「x 預測」（預測干凈的圖像表征），而 REPA 頭只能訪問模型的淺層特征，天然是一個「更弱的版本」。將主模型輸出也改寫為 x 預測格式，就可以直接用 REPA 頭作為引導基線。這樣就無需額外訓練任何模型，無需額外前向計算，引導完全「免費」。

RAEv2 的表現如何？

三個洞察組合在一起，形成了 RAEv2，帶來了可量化的全面改進。

在圖像生成質量（ImageNet-256，以 gFID 衡量，越低越好）上，RAEv2 在僅 80 個訓練 epoch 后達到 1.06。

以 FDr?這一更嚴格的評估指標衡量，RAEv2 以 80 epoch 達到 2.17，超越了原始 RAE 的最佳成績 3.26—— 后者需要十倍訓練時長且依賴后處理。

研究團隊為此引入了一個新的效率指標：EPFID@k，即「達到無引導 gFID ≤ k 所需的訓練 epoch 數」。這個指標的意義在于：絕對 gFID 數值的微小差異在實際應用中幾乎感知不到，但訓練效率的差異直接決定了誰能更快迭代、更低成本實驗。

RAE 的 EPFID@2 為 177 epoch，RAEv2 將其壓縮到了 35 epoch—— 收斂速度超過 5 倍，若與早期方法比較則達 10 倍以上。

在計算成本上，RAEv2 保持與第一代 RAE 完全相同的 189 GFLOPs，而 FLUX.1 等頂級商業模型需要 448 GFLOPs。以不到一半的算力，達到超越所有同類系統的生成質量。這是 RAEv2 最直接的工程價值。

在重建質量上，盡管只在 ImageNet 上訓練，RAEv2 的還原效果已可與 FLUX VAE、SDXL-VAE 等在大規模多樣化數據集上訓練的專有模型相媲美。

超越圖像分類：更廣的適用性

RAEv2 并未局限于 ImageNet 實驗。論文還驗證了其在兩個方向上的泛化能力。

在文本生圖方向，使用 SigLIP-2 作為編碼器的 RAEv2，在文本生圖基準上展現出與 ImageNet 實驗一致的改進趨勢，收斂速度顯著快于基于 VAE 的對比方法。

在導航世界模型方向 —— 即 AI 通過視覺預測未來幀的任務場景 ——RAEv2 同樣帶來了一致的性能提升，證明這一框架并非專為圖像生成設計的特殊技巧，而是具有跨任務通用性的基礎方法。

一個更大的賭注

RAEv2 所指向的不只是「更快的圖像生成」。

在傳統的圖像 AI 體系里，「理解圖像」和「生成圖像」是兩條平行的軌道：前者用 DINOv2、CLIP 等判別式模型，后者用 Stable Diffusion、FLUX 等生成式模型，兩者共享的只有訓練數據，而非知識體系。

RAE 框架的核心賭注是把這兩條軌道合并。如果生成模型直接在視覺理解模型的語義空間里工作，那理解和生成就共享同一套「視覺語言」，未來的統一多模態模型將具備直接在生成的圖像潛在表征上進行推理的能力。

從一個單純的「更快收斂」的工程改進出發，RAEv2 不經意間指向了一個更宏觀的問題：下一代多模態 AI 是否應當從根本上統一「看」與「畫」的底層表征？

這個問題，也許比 gFID 數字本身更值得關注。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

多模態預訓練，才是大模型的下一條路？Yann LeCun、謝賽寧參與

機器之心Pro 2026-03-09 11:53:58
0 跟貼 0
面壁智能開源全模態模型MiniCPM-o4.5，邊看邊聽還能主動搶答

量子位 2026-02-05 23:20:12
0 跟貼 0

全網實測Gemini Omni！一句話改視頻，草圖變大片

新智元 2026-05-20 17:19:38
0 跟貼 0

AI 協作重磅突破！斯坦福英偉達聯手消除AI溝通內耗，推理速度暴漲 2.4 倍

鈦媒體APP 2026-05-21 08:08:11
1 跟貼 1
BOSS直聘：Token成本降低促進服務普及，平臺超千萬人使用AI服務

財天COVER 2026-05-21 11:20:23
0 跟貼 0

9億次點擊背后，AI應用的真實江湖｜2026中國AI應用全景圖譜報告

36氪 2026-05-21 12:01:04
0 跟貼 0

推翻二十年組網邏輯，智譜落地ZCube，讓同樣的GPU多干15%的活

機器之心Pro 2026-05-21 11:30:58
0 跟貼 0
00后小哥復刻Claude最強神話模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟貼 0

福建楊梅“泡藥”風波下，浙江仙居姑娘一段視頻火了：父親種樹40年只為那7天的酸甜，“從小到大只見過我爸哭一次，因為楊梅樹倒了”

極目新聞 2026-05-20 18:30:13
14045 跟貼 14045
日系車潰敗真相：一個按鈕審批半年，中國車企迭代三輪了！

主持人張紫琦 2026-05-19 17:57:07
30 跟貼 30
視覺模型既懂語義，又能還原細節，南洋理工&商湯提出棱鏡假說

機器之心Pro 2026-01-13 18:26:48
0 跟貼 0
河南一景區現“爬不動了吧哈哈哈哈”標語，游客感覺不被尊重，景區：已撤除，本意是緩解爬山壓力

極目新聞 2026-05-19 14:48:26
11013 跟貼 11013
新浪彩票海天老師規律選26057期雙色球

一起去所見所聞 2026-05-21 09:27:27
0 跟貼 0
賦予視頻生成「視覺思維鏈」：VChain顯式建模時空規劃與狀態演變

機器之心Pro 2026-05-20 16:07:48
0 跟貼 0
技術永遠不會消失

市井中人 2026-05-18 13:31:13
1 跟貼 1
飛刀老師展示飛鏢，嚇得游客癱坐在地，技術果真是精湛！

爆笑神惡搞 2026-05-19 14:20:26
1 跟貼 1
運20落地前五六秒都是斜的，飛行員力挽狂瀾，先進飛控技術的體現

林十六 2026-05-20 10:34:28
3 跟貼 3
由木頭搭建的古橋，歷經歲月依舊堅固如初，不得不佩服古人技術！

日常逗趣集 2026-05-19 11:35:11
1 跟貼 1
一買家網購45把一次性雨傘，使用后全損退貨，傘全部損壞且寫有學生姓名

中原網 2026-05-20 17:09:03
256 跟貼 256
鄭氏杉杉落幕倒計時董事長周婷最后一次出席股東會

界面新聞 2026-05-21 09:03:59
96 跟貼 96
中俄元首簽署聯合聲明

央視新聞 2026-05-20 14:30:22
1655 跟貼 1655
【酷溫】方案再迭代！80、90后靠“互助養老”？！

酷溫coolwin 2026-05-20 22:03:38
7 跟貼 7
“這里是加油站，不是你家”，男子在加油站內用明火炒菜，被多次勸阻不肯收手

瀟湘晨報 2026-05-20 18:07:36
159 跟貼 159
夢幻西游：速度是目前最無法理解的屬性內卷之一，價值居高不下！

九分游戲 2026-05-21 09:41:53
1 跟貼 1
婚車接親現場，忙活了一早上，結果格式拍錯了

博聞視角 2026-05-18 18:38:39
0 跟貼 0
美國記者打卡甘肅熔鹽塔式光熱電站 “這就是中國為何能抵御能源沖擊”

海外網 2026-05-20 16:18:21
1807 跟貼 1807
知名飲料標注“特選奉化水蜜桃” ，實際添加0.01克！讀懂標簽和配料表

上觀新聞 2026-05-20 13:51:27
178 跟貼 178
特斯拉官宣監督版FSD登陸中國

界面新聞 2026-05-21 09:32:00
116 跟貼 116
剛剛！深圳福田初中生登頂珠穆朗瑪峰，成為中國最年輕登頂者

南方都市報 2026-05-21 07:42:29
101 跟貼 101
這扭矩數值太驚人，完全超出你想象，簡直牛到沒朋友

笑的牙癢癢 2026-05-20 18:47:35
1 跟貼 1
字節跳動獎學金首次開放全球申請，最高獎勵30萬元

界面新聞 2026-05-20 21:00:22
0 跟貼 0
硬核啊，用這樣的設備操作模型直升機！

長安一片月 2026-05-20 15:03:35
11 跟貼 11
央視315報道涉中醫藥事件查處進展

界面新聞 2026-05-20 15:48:37
422 跟貼 422
全金屬直列四缸發動機模型

制造科技 2026-05-20 18:07:12
0 跟貼 0
張雪機車64號車手入駐，卡里卡蘇洛稱迫不及待想來中國，為車隊調校賽車參數，提供珍貴數據，車迷：誰說站

封面新聞 2026-05-20 15:47:49
4 跟貼 4
滿嘴“基本盤”，不過是“盤中餐”

團結湖參考 2026-05-21 08:05:21
1522 跟貼 1522
埃梅里杯，實至名歸

環球網資訊 2026-05-21 08:40:22
33 跟貼 33
魏建軍吐槽行業現狀：電動車兩年就迭代，維修還沒學會車就換代

極果酷玩 2026-05-19 05:38:54
13 跟貼 13
小米汽車OTA 1.16全量推送，新增模糊語義理解、小愛陪伴等功能

IT之家 2026-05-21 07:47:22
0 跟貼 0
伊朗外交部稱“正在評估”美方最新談判意見

財聯社 2026-05-21 11:12:18
0 跟貼 0

花生再次被關注！調查發現:糖尿病常吃花生不過半年或有4好處

花生再次被關注！調查發現:糖尿病常吃花生不過半年或有4好處

芹姐說生活

2026-05-15 23:37:01

山東22歲男子因感情糾紛殺害大12歲女友被判死緩，被害女子家屬已申請抗訴

山東22歲男子因感情糾紛殺害大12歲女友被判死緩，被害女子家屬已申請抗訴

瀟湘晨報

2026-05-20 23:22:14

突發！高市早苗瘋了！

財經要參

2026-05-21 09:00:03

媒體人：徐杰大概率C類合同續約，走趙睿老路，再下一份才是頂薪

媒體人：徐杰大概率C類合同續約，走趙睿老路，再下一份才是頂薪

只扣籃的教練

2026-05-21 09:45:54

配角的實力有多強？當志愿軍浴血奮戰時，朝鮮人民軍在干什么？

配角的實力有多強？當志愿軍浴血奮戰時，朝鮮人民軍在干什么？

混沌錄

2026-05-19 20:17:54

職業運動員究竟有多厲害？網友：在天賦面前，努力一文不值！

職業運動員究竟有多厲害？網友：在天賦面前，努力一文不值！

另子維愛讀史

2026-05-21 08:03:05

柳州地震捐款名單太現實！年入上億明星集體沉默

柳州地震捐款名單太現實！年入上億明星集體沉默

TVB的四小花

2026-05-21 07:39:35

俄國防部：俄軍5月19-21日舉行在侵略威脅下準備和使用核武器演習

俄國防部：俄軍5月19-21日舉行在侵略威脅下準備和使用核武器演習

俄羅斯衛星通訊社

2026-05-20 15:09:44

悲哀！山東一高中家長哭訴孩子成績不夠優秀，家長加老師微信都難

悲哀！山東一高中家長哭訴孩子成績不夠優秀，家長加老師微信都難

火山詩話

2026-05-21 10:21:06

中俄朝三面夾擊日本，東京突發大規?？棺h，高市早苗被逼辭職

中俄朝三面夾擊日本，東京突發大規模抗議，高市早苗被逼辭職

手里有讀

2026-05-18 09:17:48

特朗普與普京錯峰訪華，俄方提了一個要求，中方給俄吃下定心丸

特朗普與普京錯峰訪華，俄方提了一個要求，中方給俄吃下定心丸

羽逸地之光

2026-05-21 07:12:28

他們終于把“防人”這件事，做到了極致！

他們終于把“防人”這件事，做到了極致！

胖胖說他不胖

2026-05-19 11:50:06

誰給了商家隨意更改水果本名的權力？

誰給了商家隨意更改水果本名的權力？

命運自認幽默

2026-05-21 03:49:57

男人坐牢20年出獄，去派出所重新辦身份證，結果警察看到他淚目了

男人坐牢20年出獄，去派出所重新辦身份證，結果警察看到他淚目了

白云故事

2025-04-12 17:55:08

暫別國乒，前往波蘭打球，扣除上繳國乒，何卓佳薪水還剩下多少？

暫別國乒，前往波蘭打球，扣除上繳國乒，何卓佳薪水還剩下多少？

林子說事

2026-05-20 21:44:34

男籃打成女籃，揪頭發拉手手都不吹，為了門票錢肖華拼了

男籃打成女籃，揪頭發拉手手都不吹，為了門票錢肖華拼了

兵哥籃球故事

2026-05-21 11:42:53

發射倒計時！神舟二十三號陣容大換血，3位老航天員落選

發射倒計時！神舟二十三號陣容大換血，3位老航天員落選

肖茲探秘說

2026-05-20 18:22:48

馬刺西決1-1雷霆！文班空砍21+17+6+4帽改寫歷史末節7中2吞敗仗

馬刺西決1-1雷霆！文班空砍21+17+6+4帽改寫歷史末節7中2吞敗仗

追球者

2026-05-21 11:10:03

秘魯大選，日裔候選人藤森慶子脫穎而出！她對中國的態度可不簡單

秘魯大選，日裔候選人藤森慶子脫穎而出！她對中國的態度可不簡單

混沌錄

2026-05-20 00:43:10

桑喬捧歐聯杯，三年三進決賽奪兩冠！巨頭觀戰等待曼聯解約后再簽

桑喬捧歐聯杯，三年三進決賽奪兩冠！巨頭觀戰等待曼聯解約后再簽

羅米的曼聯博客

2026-05-21 11:37:22

機器之心Pro

專業的人工智能媒體

13048文章數 142651關注度

往期回顧全部

科技要聞

好到離譜也不夠！英偉達交出816億美元營收

頭條要聞

中國人家中常備的川貝枇杷膏被維基百科創建專屬詞條

頭條要聞

中國人家中常備的川貝枇杷膏被維基百科創建專屬詞條

體育要聞

常住人口7000的小鎮，擁有了一支德甲球隊

娛樂要聞

同行吐槽汪涵野心重爆雷37萬人受損

財經要聞

英偉達業績超預！指引再新高仍不夠亮眼

汽車要聞

26.98萬起步看小鵬GX如何詮釋一車多能以及滿配的科技與豪華

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

藝術

時尚

教育

手機

家居

藝術要聞

崔雪冬 2026年油畫新作

全網首檔挑戰Al設備拍攝短劇現場直播!

教育要聞

有一種回報率很高的教育方式：大量記錄你的孩子

手機要聞

小米17T系列有國行版海外版5月28日率先推出

家居要聞

風格碰撞個性與藝術

日常印記靜謐溫馨
觀山隱秀心靈沉淀
110㎡淡而有致的生活表達

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版