亚洲中文字幕乱码亚洲-蜜桃成熟视频在线观看-免费中文字幕视频在线-中国五十路熟妇洗澡视频-亚洲av伊人啪啪c-国产精品成人一区二区-国产自拍视频一区在线观看-成人一区不卡二区三区四区-亚洲情精品中文字幕99在线

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

上交大提出LatentUM:UnifiedModel真正戰(zhàn)場(chǎng)在視覺(jué)推理與世界模型

0
分享至



本文作者團(tuán)隊(duì)來(lái)自上海交通大學(xué) DENG Lab 與清華大學(xué)、加州大學(xué)圣地亞哥分校(UCSD)。該研究由博士生金佳純、準(zhǔn)博士生周澤同共同完成,指導(dǎo)教師為鄧志杰、朱軍、劉鵬飛、張昊、楊嘯老師。DENG Lab 隸屬上海交通大學(xué),致力于高效、跨模態(tài)生成模型的研究。

過(guò)去一段時(shí)間,生成理解統(tǒng)一模型(Unified Model)經(jīng)常被理解成一種「既能看懂圖、又能生成圖」的多模態(tài)通用系統(tǒng)。

但如果統(tǒng)一模型的價(jià)值只停留在「會(huì)看會(huì)畫」,那它和把 VLM、T2I 簡(jiǎn)單拼在一起并沒(méi)有本質(zhì)區(qū)別。真正更值得追問(wèn)的問(wèn)題是:模型能不能把自己生成出的視覺(jué)內(nèi)容直接納入推理閉環(huán),讓圖像不只是輸出結(jié)果,而是推理、規(guī)劃乃至世界建模過(guò)程中的中間思維狀態(tài)?

近期,上海交通大學(xué) DENG Lab 提出的 LatentUM嘗試去回答上述問(wèn)題。

從結(jié)果上看,這條路線確實(shí)帶來(lái)了實(shí)際性能收益:LatentUM 在 GenEval 上最高達(dá)到 0.92,在 Visual Spatial Planning 任務(wù)上準(zhǔn)確率最高達(dá)到 0.99,在導(dǎo)航世界模型任務(wù)上,LatentUM 在 NWM 評(píng)測(cè)上取得 ATE 1.34、RPE 0.34,超過(guò)近期 Transfusion-RAE 等統(tǒng)一世界模型基線。

這說(shuō)明,共享語(yǔ)義 latent space 并不只是一個(gè)更「統(tǒng)一」的建模方案,它確實(shí)有機(jī)會(huì)把視覺(jué)生成變成推理與建模過(guò)程中的有效中間變量。



  • 論文地址:https://arxiv.org/pdf/2604.02097
  • 代碼地址:https://github.com/SJTU-DENG-Lab/LatentUM
  • 模型倉(cāng)庫(kù):https://huggingface.co/collections/SJTU-DENG-Lab/latentum

重新思考 Unified Model 的價(jià)值與存在的問(wèn)題

現(xiàn)有多數(shù)生成理解統(tǒng)一模型 (Unified Model) 的目標(biāo),仍然停留在打造一個(gè)「能看又能畫」的多模態(tài)六邊形戰(zhàn)士,但它們往往在理解和生成兩端都不及最好的 specific model。

LatentUM 想推動(dòng)大家重新思考這個(gè)方向的目標(biāo)函數(shù):Unified Model 的真正潛力,并不只是把視覺(jué)理解和視覺(jué)生成裝進(jìn)同一個(gè)框架里,而是在模態(tài)交錯(cuò)生成中把生成出的視覺(jué)內(nèi)容真正納入 reasoning loop,形成 cross-modal chain-of-thought,進(jìn)一步服務(wù)于復(fù)雜視覺(jué)推理、規(guī)劃乃至世界建模。

換句話說(shuō),Unified Model 最值得做的事,是讓模型在推理過(guò)程中真的把圖像當(dāng)作中間思維載體來(lái)使用,而不是把「會(huì)看會(huì)畫」本身當(dāng)作終點(diǎn)。



圖 1:LatentUM 在帶有自我反思的文生圖任務(wù)、視覺(jué)空間規(guī)劃任務(wù)、世界建模任務(wù)上都超越了基線模型。

基于這一觀察,LatentUM 給出的核心思路是:不再讓視覺(jué)生成服務(wù)于像素空間,而是讓模型直接生成與語(yǔ)言共享語(yǔ)義空間的離散 visual semantic tokens。這樣一來(lái),模型生成出來(lái)的視覺(jué)內(nèi)容,就可以被模型自己直接讀取、繼續(xù)推理,而不必再經(jīng)過(guò)「像素中轉(zhuǎn)」。

換句話說(shuō),LatentUM 想實(shí)現(xiàn)的,不是一個(gè)簡(jiǎn)單把理解和生成拼在一起的 Unified Model,而是一個(gè)真正基于 shared semantic latent space 運(yùn)作的 latent-space unified model。

當(dāng)前大部分 Unified Model 通常把理解和生成建立在兩套不同的視覺(jué)表示上:理解側(cè)使用與語(yǔ)言對(duì)齊的語(yǔ)義特征,生成側(cè)使用面向像素重建的 VAE 特征。結(jié)果就是,模型一旦想基于自己生成的圖繼續(xù)思考,就不得不先把生成特征解碼成像素,再重新編碼回理解特征。這個(gè)過(guò)程不僅低效,也會(huì)引入額外的 codec bias,造成跨模態(tài)錯(cuò)位,限制圖文交錯(cuò)推理能力。

也正因?yàn)槿绱?,很多現(xiàn)有統(tǒng)一模型雖然「既能看又能畫」,但在真正需要視覺(jué)中間態(tài)參與推理的任務(wù)上,并沒(méi)有把 unified 的優(yōu)勢(shì)發(fā)揮出來(lái)。

LatentUM 的模型設(shè)計(jì)



圖 2:LatentUM 架構(gòu)的三個(gè)關(guān)鍵設(shè)計(jì)。

圍繞這一目標(biāo),LatentUM 主要包含三個(gè)關(guān)鍵設(shè)計(jì)。

首先是 Model Behavior Aligned Quantization(MBAQ)。由于連續(xù)語(yǔ)義特征維度高,難以直接進(jìn)行生成建模。LatentUM 選擇先將其量化為可自回歸預(yù)測(cè)的離散 visual semantic tokens。傳統(tǒng)視覺(jué)離散化方法通常追求還原像素或原始特征,但對(duì) Unified Model 來(lái)說(shuō),更關(guān)鍵的是量化后的 token 能否繼續(xù)支撐視覺(jué)理解與語(yǔ)言推理。

因此,MBAQ 不是優(yōu)化重建誤差,而是讓量化后的視覺(jué)特征盡可能保留原始視覺(jué)特征所對(duì)應(yīng)的 VLM 的理解行為。

這意味著量化器會(huì)優(yōu)先保留那些真正影響視覺(jué)理解結(jié)果的語(yǔ)義信息,主動(dòng)舍棄對(duì)預(yù)測(cè)貢獻(xiàn)有限的低層像素細(xì)節(jié)。相比關(guān)注特征還原,MBAQ 更關(guān)注量化后的 token 是否仍然能夠支持原有的視覺(jué)問(wèn)答與語(yǔ)言推理能力。

這對(duì)于 Unified Model 尤其關(guān)鍵,因?yàn)橹挥挟?dāng)生成出的 visual token 仍然能夠被模型自己穩(wěn)定理解時(shí),它們才能真正作為中間思維狀態(tài)參與后續(xù)的跨模態(tài)推理。

第二是 Mixture-of-Modal Experts(MoME)。統(tǒng)一建模并不意味著所有模態(tài)都必須完全走同一套參數(shù)路徑。為降低視覺(jué)理解與視覺(jué)生成之間的訓(xùn)練干擾,LatentUM 將理解和生成分成兩條并行分支,它們共享 self-attention,但在其余部分適度解耦。

這樣既保留圖文之間的信息流動(dòng),也減少了不同目標(biāo)之間的負(fù)遷移。雖然生成理解兩套參數(shù)解耦,但模型生成的視覺(jué) token 可以重新被理解分支直接讀取并緩存進(jìn)上下文,從而繼續(xù)參與后續(xù)推理。

第三是 Decoupled Pixel Decoder。雖然 LatentUM 的離散語(yǔ)義特征不再圍繞像素重建來(lái)訓(xùn)練,但作者們發(fā)現(xiàn)離散語(yǔ)義特征中仍然保有大部分的像素信息,可以通過(guò)一個(gè)獨(dú)立的 diffusion decoder 將其恢復(fù)成像素。

這樣一來(lái),像素空間在 LatentUM 中不再是內(nèi)部推理的必經(jīng)橋梁,而只是一個(gè)按需調(diào)用的可視化接口,從而避免模型為了像素保真而犧牲統(tǒng)一語(yǔ)義空間本身的表達(dá)能力。

實(shí)驗(yàn)結(jié)果

基于上述設(shè)計(jì),論文實(shí)現(xiàn)了 LatentUM-Base。模型以 InternVL3.5-4B 為初始化底座,直接繼承其成熟的視覺(jué)理解能力,并在圖文數(shù)據(jù)上進(jìn)行訓(xùn)練來(lái)補(bǔ)足視覺(jué)生成分支,總訓(xùn)練成本大約是 6000 GPU hours。

實(shí)驗(yàn)結(jié)果首先驗(yàn)證了這種 shared semantic latent space 不會(huì)顯著損害視覺(jué)理解能力。論文在多項(xiàng)理解基準(zhǔn)上評(píng)估 LatentUM-Base,發(fā)現(xiàn)當(dāng)輸入圖像被量化成離散語(yǔ)義 token 后,視覺(jué)理解的能力依舊在線。

這說(shuō)明MBAQ 學(xué)到的 token 并不是簡(jiǎn)單壓縮結(jié)果,而是真的保留了足夠支撐視覺(jué)理解的語(yǔ)義結(jié)構(gòu)。



圖 3:LatentUM-Base 的視覺(jué)理解能力與基線方法的對(duì)比。

在視覺(jué)生成方面,得益于視覺(jué) token 的語(yǔ)義對(duì)齊,LatentUM-Base 同樣展現(xiàn)出了很強(qiáng)的 instruction-following 能力。在 GenEval 上,LatentUM-Base 達(dá)到 0.85,已經(jīng)超過(guò)大多數(shù)已有 Unified Model,而且這一結(jié)果是在相對(duì)有限的數(shù)據(jù)規(guī)模下取得的。

這說(shuō)明共享語(yǔ)義空間讓模型更容易把文本條件中的語(yǔ)義約束真正落實(shí)到視覺(jué) token 上。



圖 4:LatentUM-Base 的文生圖樣例展示。

除了基本的 text-to-image generation,LatentUM 還能利用自己的理解能力反過(guò)來(lái)提升生成。

論文在 post-training 階段探索了 generate-then-reflect 的范式:先生成,再讓模型基于自己的理解分支對(duì)結(jié)果做「自檢」,并通過(guò)強(qiáng)化學(xué)習(xí)進(jìn)一步優(yōu)化。僅基于自我理解 reward,LatentUM-Vis-Gen 在 GenEval 上從 0.85 提升到 0.87;如果進(jìn)一步使用外部 pixel-level reward,最終可以達(dá)到 0.92,在統(tǒng)一模型中取得新的最好結(jié)果。

在更強(qiáng)調(diào)語(yǔ)義判斷穩(wěn)健性的 GenEval2 上,LatentUM 也顯著領(lǐng)先已有 Unified Model。



圖 5:LatentUM 在 GenEval bench 上超越了 Unified Model 的基線。

為了驗(yàn)證共享語(yǔ)義 latent space 是否真的能支撐復(fù)雜的圖文交錯(cuò)推理,論文進(jìn)一步在 Visual Spatial Planning 任務(wù)上做了系統(tǒng)評(píng)測(cè)。

這個(gè)任務(wù)要求模型在迷宮環(huán)境中進(jìn)行規(guī)劃,不僅要讀懂當(dāng)前視覺(jué)狀態(tài),還要在推理過(guò)程中基于采取的 action 持續(xù)更新下一個(gè)未來(lái)狀態(tài)。

結(jié)果上,LatentUM-Vis-Plan 在粗粒度中間狀態(tài)的設(shè)定下平均準(zhǔn)確率達(dá)到 0.85,在細(xì)粒度中間狀態(tài)的逐步交錯(cuò)推理的設(shè)定下達(dá)到 0.99,顯著超過(guò) ThinkMorph 等需要經(jīng)過(guò)像素空間中轉(zhuǎn)的方法。

這說(shuō)明,如果視覺(jué)內(nèi)容本身就處在統(tǒng)一語(yǔ)義空間里,那么「邊想邊看、邊看邊想」并不是概念展示,而是可以帶來(lái)性能增益的實(shí)際能力。



LatentUM 在 VSP 任務(wù)上的 demo。



圖 6:LatentUM 在 Visual Spatial Planning bench 上大幅超越了各類跨模態(tài)推理基線。

最后,論文還進(jìn)一步探索了 LatentUM 在 world modeling 中的潛力。

在導(dǎo)航世界模型設(shè)定下,LatentUM-WM 在 NWM 評(píng)測(cè)上取得 ATE 1.34、RPE 0.34,超過(guò)了近期 Transfusion-RAE 這類統(tǒng)一世界模型基線。

這說(shuō)明shared semantic latent space 也許不僅是連接理解和生成的一種方法,也可能是連接推理與世界建模的一條自然路徑。



LatentUM 在 navigation world modeling 任務(wù)上的 demo。

從更大的角度看,LatentUM 想推動(dòng)大家重新思考 Unified Model 的目標(biāo)。它不應(yīng)該只是把「看」和「畫」放進(jìn)同一個(gè)模型里,而應(yīng)該成為一個(gè)能夠在共享語(yǔ)義空間中進(jìn)行交錯(cuò)生成、反思、規(guī)劃與預(yù)測(cè)的通用多模態(tài)系統(tǒng)。

對(duì) Unified Model 來(lái)說(shuō),真正重要的,也許從來(lái)不是「既會(huì)看又會(huì)畫」,而是能不能在共享語(yǔ)義空間中用各種模態(tài)持續(xù)地生成、推理。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
馬蹄露公開(kāi)信直擊保安局,怒懟張敬軒復(fù)出!

馬蹄露公開(kāi)信直擊保安局,怒懟張敬軒復(fù)出!

廣州筍嘢益街坊
2026-04-15 21:46:37
歷史性一刻!中阿一口氣簽24項(xiàng)協(xié)議,非石油貿(mào)易首破1000億美元!

歷史性一刻!中阿一口氣簽24項(xiàng)協(xié)議,非石油貿(mào)易首破1000億美元!

云舟史策
2026-04-15 07:39:12
巴薩不敵馬競(jìng),可怕的不是出局!而是趕走梅西后11年0進(jìn)歐冠決賽

巴薩不敵馬競(jìng),可怕的不是出局!而是趕走梅西后11年0進(jìn)歐冠決賽

球場(chǎng)沒(méi)跑道
2026-04-15 10:09:53
凌晨1點(diǎn)告別德國(guó)!樊振東最后一場(chǎng),數(shù)萬(wàn)球迷會(huì)為他守夜嗎?

凌晨1點(diǎn)告別德國(guó)!樊振東最后一場(chǎng),數(shù)萬(wàn)球迷會(huì)為他守夜嗎?

曉隯就是我
2026-04-15 10:59:55
美上將發(fā)出警告:中國(guó)應(yīng)該停止建造軍艦,海軍實(shí)力已經(jīng)足夠強(qiáng)大!

美上將發(fā)出警告:中國(guó)應(yīng)該停止建造軍艦,海軍實(shí)力已經(jīng)足夠強(qiáng)大!

可樂(lè)愛(ài)微笑
2026-04-16 00:43:31
誰(shuí)能阻止雷霆本賽季奪冠,美媒直言僅有以下三支球隊(duì)能夠做到。

誰(shuí)能阻止雷霆本賽季奪冠,美媒直言僅有以下三支球隊(duì)能夠做到。

君子一劍似水流年
2026-04-15 07:01:47
海峽被封,特朗普給了中國(guó)兩條路,中方二話不說(shuō),馬上給俄發(fā)邀請(qǐng)

海峽被封,特朗普給了中國(guó)兩條路,中方二話不說(shuō),馬上給俄發(fā)邀請(qǐng)

阿銍武器裝備科普
2026-04-15 04:22:55
陳麗華頭七剛過(guò),前員工公開(kāi)爆料人品,遲重瑞的評(píng)價(jià)終于有人信了

陳麗華頭七剛過(guò),前員工公開(kāi)爆料人品,遲重瑞的評(píng)價(jià)終于有人信了

小兔子的快樂(lè)
2026-04-13 08:24:28
美高層曾提議:中國(guó)可以用1萬(wàn)多億美債,從美國(guó)手中"贖回"臺(tái)灣

美高層曾提議:中國(guó)可以用1萬(wàn)多億美債,從美國(guó)手中"贖回"臺(tái)灣

快樂(lè)彼岸
2026-04-09 18:35:16
43歲劉翔再婚10年仍無(wú)子,并非不愿生,背后隱情令人痛心!

43歲劉翔再婚10年仍無(wú)子,并非不愿生,背后隱情令人痛心!

拳擊時(shí)空
2026-04-15 06:22:38
亡國(guó)危機(jī)!以色列怕了!

亡國(guó)危機(jī)!以色列怕了!

大嘴說(shuō)天下
2026-04-15 22:20:03
馬競(jìng)官方發(fā)meme調(diào)侃巴薩:摘掉獅子的頭套,發(fā)現(xiàn)其實(shí)是小狗

馬競(jìng)官方發(fā)meme調(diào)侃巴薩:摘掉獅子的頭套,發(fā)現(xiàn)其實(shí)是小狗

懂球帝
2026-04-15 07:48:07
附加賽中表現(xiàn)慘淡!開(kāi)拓者內(nèi)線大閘到了季后賽能否強(qiáng)勢(shì)反彈呢?

附加賽中表現(xiàn)慘淡!開(kāi)拓者內(nèi)線大閘到了季后賽能否強(qiáng)勢(shì)反彈呢?

稻谷與小麥
2026-04-16 01:00:16
S家再傳壞消息,S媽哥哥走了,訃告曝光她沒(méi)離婚!一份訃告揭開(kāi)她幾十年婚姻真相

S家再傳壞消息,S媽哥哥走了,訃告曝光她沒(méi)離婚!一份訃告揭開(kāi)她幾十年婚姻真相

科學(xué)發(fā)掘
2026-04-15 03:45:31
不要誤判當(dāng)下的樓市!

不要誤判當(dāng)下的樓市!

地產(chǎn)觀點(diǎn)
2026-04-15 11:44:42
石油枯竭竟是假象?顛覆認(rèn)知,石油根本不是遠(yuǎn)古動(dòng)植物演化而來(lái)

石油枯竭竟是假象?顛覆認(rèn)知,石油根本不是遠(yuǎn)古動(dòng)植物演化而來(lái)

丁丁鯉史紀(jì)
2026-04-13 16:00:40
熱火時(shí)隔7年無(wú)緣季后賽:今夏全力追求字母哥 陣容恐大洗牌

熱火時(shí)隔7年無(wú)緣季后賽:今夏全力追求字母哥 陣容恐大洗牌

醉臥浮生
2026-04-15 10:28:34
阿斯麥跌幅擴(kuò)大至5%

阿斯麥跌幅擴(kuò)大至5%

每日經(jīng)濟(jì)新聞
2026-04-15 22:04:08
越鬧越大,木子美拒不道歉,還把陳芋汐也拉下水,她憑什么這么狂

越鬧越大,木子美拒不道歉,還把陳芋汐也拉下水,她憑什么這么狂

往史過(guò)眼云煙
2026-04-15 19:48:07
HBO聯(lián)手DC!今年最燃的超英美劇要來(lái)了

HBO聯(lián)手DC!今年最燃的超英美劇要來(lái)了

來(lái)看美劇
2026-04-15 21:41:44
2026-04-16 01:35:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12772文章數(shù) 142629關(guān)注度
往期回顧 全部

科技要聞

ChatGPT十億用戶又怎樣?Anthropic直接貼臉

頭條要聞

美航母及1萬(wàn)多士兵將抵中東 特朗普:戰(zhàn)爭(zhēng)或持續(xù)至11月

頭條要聞

美航母及1萬(wàn)多士兵將抵中東 特朗普:戰(zhàn)爭(zhēng)或持續(xù)至11月

體育要聞

三球準(zhǔn)絕殺戴大金鏈:轟30+10自我救贖

娛樂(lè)要聞

謝娜現(xiàn)身環(huán)球影城,牽手女兒溫馨有愛(ài)

財(cái)經(jīng)要聞

業(yè)績(jī)失速的Lululemon:"健康"人設(shè)崩塌?

汽車要聞

空間絲毫不用妥協(xié) 小鵬GX首發(fā)評(píng)測(cè)

態(tài)度原創(chuàng)

家居
本地
房產(chǎn)
時(shí)尚
公開(kāi)課

家居要聞

簡(jiǎn)而不減 暖居之道

本地新聞

12噸巧克力有難,全網(wǎng)化身超級(jí)偵探添亂

房產(chǎn)要聞

重磅調(diào)規(guī)!341畝商改住+中小學(xué)用地!寶龍城這把穩(wěn)了?

赫本愛(ài)穿的傘裙,好優(yōu)雅!

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版