網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

上交大提出LatentUM：UnifiedModel真正戰(zhàn)場(chǎng)在視覺(jué)推理與世界模型

2026-04-14 10:00:10　來(lái)源: 機(jī)器之心Pro

河北舉報(bào)

分享至

本文作者團(tuán)隊(duì)來(lái)自上海交通大學(xué) DENG Lab 與清華大學(xué)、加州大學(xué)圣地亞哥分校（UCSD）。該研究由博士生金佳純、準(zhǔn)博士生周澤同共同完成，指導(dǎo)教師為鄧志杰、朱軍、劉鵬飛、張昊、楊嘯老師。DENG Lab 隸屬上海交通大學(xué)，致力于高效、跨模態(tài)生成模型的研究。

過(guò)去一段時(shí)間，生成理解統(tǒng)一模型（Unified Model）經(jīng)常被理解成一種「既能看懂圖、又能生成圖」的多模態(tài)通用系統(tǒng)。

但如果統(tǒng)一模型的價(jià)值只停留在「會(huì)看會(huì)畫」，那它和把 VLM、T2I 簡(jiǎn)單拼在一起并沒(méi)有本質(zhì)區(qū)別。真正更值得追問(wèn)的問(wèn)題是：模型能不能把自己生成出的視覺(jué)內(nèi)容直接納入推理閉環(huán)，讓圖像不只是輸出結(jié)果，而是推理、規(guī)劃乃至世界建模過(guò)程中的中間思維狀態(tài)？

近期，上海交通大學(xué) DENG Lab 提出的 LatentUM嘗試去回答上述問(wèn)題。

從結(jié)果上看，這條路線確實(shí)帶來(lái)了實(shí)際性能收益：LatentUM 在 GenEval 上最高達(dá)到 0.92，在 Visual Spatial Planning 任務(wù)上準(zhǔn)確率最高達(dá)到 0.99，在導(dǎo)航世界模型任務(wù)上，LatentUM 在 NWM 評(píng)測(cè)上取得 ATE 1.34、RPE 0.34，超過(guò)近期 Transfusion-RAE 等統(tǒng)一世界模型基線。

這說(shuō)明，共享語(yǔ)義 latent space 并不只是一個(gè)更「統(tǒng)一」的建模方案，它確實(shí)有機(jī)會(huì)把視覺(jué)生成變成推理與建模過(guò)程中的有效中間變量。

論文地址：https://arxiv.org/pdf/2604.02097
代碼地址：https://github.com/SJTU-DENG-Lab/LatentUM
模型倉(cāng)庫(kù)：https://huggingface.co/collections/SJTU-DENG-Lab/latentum

重新思考 Unified Model 的價(jià)值與存在的問(wèn)題

現(xiàn)有多數(shù)生成理解統(tǒng)一模型 (Unified Model) 的目標(biāo)，仍然停留在打造一個(gè)「能看又能畫」的多模態(tài)六邊形戰(zhàn)士，但它們往往在理解和生成兩端都不及最好的 specific model。

LatentUM 想推動(dòng)大家重新思考這個(gè)方向的目標(biāo)函數(shù)：Unified Model 的真正潛力，并不只是把視覺(jué)理解和視覺(jué)生成裝進(jìn)同一個(gè)框架里，而是在模態(tài)交錯(cuò)生成中把生成出的視覺(jué)內(nèi)容真正納入 reasoning loop，形成 cross-modal chain-of-thought，進(jìn)一步服務(wù)于復(fù)雜視覺(jué)推理、規(guī)劃乃至世界建模。

換句話說(shuō)，Unified Model 最值得做的事，是讓模型在推理過(guò)程中真的把圖像當(dāng)作中間思維載體來(lái)使用，而不是把「會(huì)看會(huì)畫」本身當(dāng)作終點(diǎn)。

圖 1：LatentUM 在帶有自我反思的文生圖任務(wù)、視覺(jué)空間規(guī)劃任務(wù)、世界建模任務(wù)上都超越了基線模型。

基于這一觀察，LatentUM 給出的核心思路是：不再讓視覺(jué)生成服務(wù)于像素空間，而是讓模型直接生成與語(yǔ)言共享語(yǔ)義空間的離散 visual semantic tokens。這樣一來(lái)，模型生成出來(lái)的視覺(jué)內(nèi)容，就可以被模型自己直接讀取、繼續(xù)推理，而不必再經(jīng)過(guò)「像素中轉(zhuǎn)」。

換句話說(shuō)，LatentUM 想實(shí)現(xiàn)的，不是一個(gè)簡(jiǎn)單把理解和生成拼在一起的 Unified Model，而是一個(gè)真正基于 shared semantic latent space 運(yùn)作的 latent-space unified model。

當(dāng)前大部分 Unified Model 通常把理解和生成建立在兩套不同的視覺(jué)表示上：理解側(cè)使用與語(yǔ)言對(duì)齊的語(yǔ)義特征，生成側(cè)使用面向像素重建的 VAE 特征。結(jié)果就是，模型一旦想基于自己生成的圖繼續(xù)思考，就不得不先把生成特征解碼成像素，再重新編碼回理解特征。這個(gè)過(guò)程不僅低效，也會(huì)引入額外的 codec bias，造成跨模態(tài)錯(cuò)位，限制圖文交錯(cuò)推理能力。

也正因?yàn)槿绱?，很多現(xiàn)有統(tǒng)一模型雖然「既能看又能畫」，但在真正需要視覺(jué)中間態(tài)參與推理的任務(wù)上，并沒(méi)有把 unified 的優(yōu)勢(shì)發(fā)揮出來(lái)。

LatentUM 的模型設(shè)計(jì)

圖 2：LatentUM 架構(gòu)的三個(gè)關(guān)鍵設(shè)計(jì)。

圍繞這一目標(biāo)，LatentUM 主要包含三個(gè)關(guān)鍵設(shè)計(jì)。

首先是 Model Behavior Aligned Quantization（MBAQ）。由于連續(xù)語(yǔ)義特征維度高，難以直接進(jìn)行生成建模。LatentUM 選擇先將其量化為可自回歸預(yù)測(cè)的離散 visual semantic tokens。傳統(tǒng)視覺(jué)離散化方法通常追求還原像素或原始特征，但對(duì) Unified Model 來(lái)說(shuō)，更關(guān)鍵的是量化后的 token 能否繼續(xù)支撐視覺(jué)理解與語(yǔ)言推理。

因此，MBAQ 不是優(yōu)化重建誤差，而是讓量化后的視覺(jué)特征盡可能保留原始視覺(jué)特征所對(duì)應(yīng)的 VLM 的理解行為。

這意味著量化器會(huì)優(yōu)先保留那些真正影響視覺(jué)理解結(jié)果的語(yǔ)義信息，主動(dòng)舍棄對(duì)預(yù)測(cè)貢獻(xiàn)有限的低層像素細(xì)節(jié)。相比關(guān)注特征還原，MBAQ 更關(guān)注量化后的 token 是否仍然能夠支持原有的視覺(jué)問(wèn)答與語(yǔ)言推理能力。

這對(duì)于 Unified Model 尤其關(guān)鍵，因?yàn)橹挥挟?dāng)生成出的 visual token 仍然能夠被模型自己穩(wěn)定理解時(shí)，它們才能真正作為中間思維狀態(tài)參與后續(xù)的跨模態(tài)推理。

第二是 Mixture-of-Modal Experts（MoME）。統(tǒng)一建模并不意味著所有模態(tài)都必須完全走同一套參數(shù)路徑。為降低視覺(jué)理解與視覺(jué)生成之間的訓(xùn)練干擾，LatentUM 將理解和生成分成兩條并行分支，它們共享 self-attention，但在其余部分適度解耦。

這樣既保留圖文之間的信息流動(dòng)，也減少了不同目標(biāo)之間的負(fù)遷移。雖然生成理解兩套參數(shù)解耦，但模型生成的視覺(jué) token 可以重新被理解分支直接讀取并緩存進(jìn)上下文，從而繼續(xù)參與后續(xù)推理。

第三是 Decoupled Pixel Decoder。雖然 LatentUM 的離散語(yǔ)義特征不再圍繞像素重建來(lái)訓(xùn)練，但作者們發(fā)現(xiàn)離散語(yǔ)義特征中仍然保有大部分的像素信息，可以通過(guò)一個(gè)獨(dú)立的 diffusion decoder 將其恢復(fù)成像素。

這樣一來(lái)，像素空間在 LatentUM 中不再是內(nèi)部推理的必經(jīng)橋梁，而只是一個(gè)按需調(diào)用的可視化接口，從而避免模型為了像素保真而犧牲統(tǒng)一語(yǔ)義空間本身的表達(dá)能力。

實(shí)驗(yàn)結(jié)果

基于上述設(shè)計(jì)，論文實(shí)現(xiàn)了 LatentUM-Base。模型以 InternVL3.5-4B 為初始化底座，直接繼承其成熟的視覺(jué)理解能力，并在圖文數(shù)據(jù)上進(jìn)行訓(xùn)練來(lái)補(bǔ)足視覺(jué)生成分支，總訓(xùn)練成本大約是 6000 GPU hours。

實(shí)驗(yàn)結(jié)果首先驗(yàn)證了這種 shared semantic latent space 不會(huì)顯著損害視覺(jué)理解能力。論文在多項(xiàng)理解基準(zhǔn)上評(píng)估 LatentUM-Base，發(fā)現(xiàn)當(dāng)輸入圖像被量化成離散語(yǔ)義 token 后，視覺(jué)理解的能力依舊在線。

這說(shuō)明MBAQ 學(xué)到的 token 并不是簡(jiǎn)單壓縮結(jié)果，而是真的保留了足夠支撐視覺(jué)理解的語(yǔ)義結(jié)構(gòu)。

圖 3：LatentUM-Base 的視覺(jué)理解能力與基線方法的對(duì)比。

在視覺(jué)生成方面，得益于視覺(jué) token 的語(yǔ)義對(duì)齊，LatentUM-Base 同樣展現(xiàn)出了很強(qiáng)的 instruction-following 能力。在 GenEval 上，LatentUM-Base 達(dá)到 0.85，已經(jīng)超過(guò)大多數(shù)已有 Unified Model，而且這一結(jié)果是在相對(duì)有限的數(shù)據(jù)規(guī)模下取得的。

這說(shuō)明共享語(yǔ)義空間讓模型更容易把文本條件中的語(yǔ)義約束真正落實(shí)到視覺(jué) token 上。

圖 4：LatentUM-Base 的文生圖樣例展示。

除了基本的 text-to-image generation，LatentUM 還能利用自己的理解能力反過(guò)來(lái)提升生成。

論文在 post-training 階段探索了 generate-then-reflect 的范式：先生成，再讓模型基于自己的理解分支對(duì)結(jié)果做「自檢」，并通過(guò)強(qiáng)化學(xué)習(xí)進(jìn)一步優(yōu)化。僅基于自我理解 reward，LatentUM-Vis-Gen 在 GenEval 上從 0.85 提升到 0.87；如果進(jìn)一步使用外部 pixel-level reward，最終可以達(dá)到 0.92，在統(tǒng)一模型中取得新的最好結(jié)果。

在更強(qiáng)調(diào)語(yǔ)義判斷穩(wěn)健性的 GenEval2 上，LatentUM 也顯著領(lǐng)先已有 Unified Model。

圖 5：LatentUM 在 GenEval bench 上超越了 Unified Model 的基線。

為了驗(yàn)證共享語(yǔ)義 latent space 是否真的能支撐復(fù)雜的圖文交錯(cuò)推理，論文進(jìn)一步在 Visual Spatial Planning 任務(wù)上做了系統(tǒng)評(píng)測(cè)。

這個(gè)任務(wù)要求模型在迷宮環(huán)境中進(jìn)行規(guī)劃，不僅要讀懂當(dāng)前視覺(jué)狀態(tài)，還要在推理過(guò)程中基于采取的 action 持續(xù)更新下一個(gè)未來(lái)狀態(tài)。

結(jié)果上，LatentUM-Vis-Plan 在粗粒度中間狀態(tài)的設(shè)定下平均準(zhǔn)確率達(dá)到 0.85，在細(xì)粒度中間狀態(tài)的逐步交錯(cuò)推理的設(shè)定下達(dá)到 0.99，顯著超過(guò) ThinkMorph 等需要經(jīng)過(guò)像素空間中轉(zhuǎn)的方法。

這說(shuō)明，如果視覺(jué)內(nèi)容本身就處在統(tǒng)一語(yǔ)義空間里，那么「邊想邊看、邊看邊想」并不是概念展示，而是可以帶來(lái)性能增益的實(shí)際能力。

LatentUM 在 VSP 任務(wù)上的 demo。

圖 6：LatentUM 在 Visual Spatial Planning bench 上大幅超越了各類跨模態(tài)推理基線。

最后，論文還進(jìn)一步探索了 LatentUM 在 world modeling 中的潛力。

在導(dǎo)航世界模型設(shè)定下，LatentUM-WM 在 NWM 評(píng)測(cè)上取得 ATE 1.34、RPE 0.34，超過(guò)了近期 Transfusion-RAE 這類統(tǒng)一世界模型基線。

這說(shuō)明shared semantic latent space 也許不僅是連接理解和生成的一種方法，也可能是連接推理與世界建模的一條自然路徑。

LatentUM 在 navigation world modeling 任務(wù)上的 demo。

從更大的角度看，LatentUM 想推動(dòng)大家重新思考 Unified Model 的目標(biāo)。它不應(yīng)該只是把「看」和「畫」放進(jìn)同一個(gè)模型里，而應(yīng)該成為一個(gè)能夠在共享語(yǔ)義空間中進(jìn)行交錯(cuò)生成、反思、規(guī)劃與預(yù)測(cè)的通用多模態(tài)系統(tǒng)。

對(duì) Unified Model 來(lái)說(shuō)，真正重要的，也許從來(lái)不是「既會(huì)看又會(huì)畫」，而是能不能在共享語(yǔ)義空間中用各種模態(tài)持續(xù)地生成、推理。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.