无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

GaussianDWM:用3D高斯表示統一自動駕駛場景理解與多模態生成

0
分享至



自動駕駛世界模型的研究目標已經從單純預測未來視覺幀,擴展到構建可用于場景理解、空間定位和后續決策的世界表示。如果模型只能生成外觀上合理的未來圖像,卻無法回答場景中有哪些目標、目標位于何處,以及不同視角下的空間結構如何變化,那么它仍然缺少對三維駕駛環境的顯式建模能力。

GaussianDWM 關注的正是這一問題:在統一的 3D 場景表示中同時支持理解任務和生成任務。



  • 作者:Tianchen Deng, Xuefeng Chen, Yi Chen, Qu Chen, Yuyao Xu, Lijin Yang, Le Xu, Yu Zhang, Bo Zhang, Wuxiong Huang, Hesheng Wang 機構:上海交通大學、清華大學、曠視科技、Mach Drive
  • 論文名稱:GaussianDWM: 3D Gaussian Driving World Model for Unified Scene Understanding and Multi-Modal Generation
  • 開源地址:https://github.com/dtc111111/GaussianDWM

GaussianDWM 試圖把這兩件事放到同一個框架里:一邊做駕駛場景理解,一邊完成空間生成、時間生成和 RGB-D 生成。它的核心選擇是把 3D Gaussian scene representation 放在世界模型中間,用同一種 3D 表示同時承載幾何、外觀和語言語義。



面向場景理解的自動駕駛世界模型

過去幾年,Driving World Model 的討論大多圍繞生成能力展開。一個典型目標是:給定當前或歷史觀測,模型預測未來的駕駛場景,或者在車輛發生位姿變化時合成新的視角。這類能力對仿真、數據生成和閉環評測都很有價值,但它并沒有覆蓋自動駕駛系統真正需要面對的全部問題。

在真實駕駛場景里,模型還要能回答更加結構化的問題。例如,場景中是否存在某個被語言描述的目標?目標在圖像或 3D 空間里的位置在哪里?當前駕駛環境能否支持后續規劃?這些問題要求模型不僅能夠從圖像中提取視覺特征并生成結果,還需要把外觀、幾何結構和語義信息組織為一種可被語言模型讀取和利用的場景表示。

這也是 GaussianDWM 的出發點。現有一些統一框架依賴 BEV 或 depth 特征做 feature-level alignment,但這種對齊更多發生在中間特征層,模型未必真正擁有一個統一的 3D 場景表征。GaussianDWM 選擇以 3D Gaussians 作為場景的底座,希望讓同一組表示既能進入 LLM 做理解,也能作為條件進入生成模塊。

把 3D Gaussian 變成 LLM 能讀懂的世界表示

GaussianDWM 的整體框架可以拆成三個部分:World Tokenizer、Scene Understanding 和 Multi-modal Generation。三個模塊之間不是簡單串聯,而是圍繞同一個 3D Gaussian 表示展開:先把多視角圖像組織成帶語言語義的高斯場,再把這些高斯壓縮、采樣并投影到 LLM 的 embedding space,最后用 LLM 提取出的 world knowledge 繼續指導 RGB-D 生成。



第一步是 Language-enhanced 3D Gaussian Tokenizer。傳統 3D Gaussian primitive 通常關注位置、不透明度、尺度、旋轉等幾何和外觀屬性。GaussianDWM 在此基礎上加入語言特征,使每個 Gaussian primitive 不再只是一個可渲染的小單元,也成為一個攜帶語義信息的 3D token。

這些語言特征來自 CLIP,并繼承 SAM 提供的層次語義。為了控制存儲和計算開銷,方法中還使用 scene-wise language autoencoder,將原本 512 維的 CLIP feature 壓縮到 3 維。這樣做的目的不是把語言信息變成一個孤立的附加項,而是讓語義真正落在 3D 場景中的空間位置上。

不過,構建出高斯場只是第一步。LLM 并不能直接處理一個密集的 3D Gaussian 場,因此 GaussianDWM 引入 Gaussian Projector 和 task-aware sampling。Projector 負責把位置、opacity、scale、rotation 以及 language feature 映射到 LLM embedding space;sampling 則根據任務選擇更合適的 Gaussian tokens。

在全局理解任務中,模型使用 uniform sampling 和 top-k sampling 保留場景整體信息;在 2D/3D visual grounding 中,采樣會參考 text query 與 Gaussian feature 的 similarity,從稠密高斯中挑出更相關的部分。主實驗中,模型從場景里采樣 4096 個 Gaussian tokens 輸入 LLM。這個數量本身也說明了一個現實取舍:3D 表示足夠豐富,但必須先變得緊湊,語言模型才有可能穩定地使用它。

理解結果反過來參與生成

GaussianDWM 的另一個關鍵設計,是沒有把理解和生成完全切開。生成模塊采用 dual-condition generation,同時接收 low-level condition 和 high-level world knowledge。前者主要來自 sparse RGB/depth condition,負責約束紋理和幾何;后者來自 LLM 提取出的 world knowledge,提供更高層的語義與空間先驗。

這種設計與駕駛場景中的多層次約束相匹配。low-level condition 主要由 sparse RGB/depth 提供,用于約束局部紋理和幾何結構,但對目標關系、空間布局和語義一致性的表達能力有限。high-level world knowledge 來自 LLM 的場景理解結果,能夠為生成過程補充語義和空間先驗。GaussianDWM 將二者結合,用 low-level condition 保持視覺細節和幾何約束,用 high-level world knowledge 強化場景關系與語義一致性,從而服務空間生成、時間生成和 RGB-D 生成。

在 NuInteract 上,

3D Gaussian 帶來更強的場景理解

為了驗證場景理解能力,GaussianDWM 在 NuInteract 上進行了評估。相比只依賴傳統視覺或語言特征的做法,3D Gaussian 給模型提供了更加明確的空間結構,也讓視覺定位任務獲得了明顯收益。

從主表結果看,GaussianDWM 的平均指標達到 59.23,高于 DriveMonkey 的 52.12。在 2D visual grounding 上,mAP 從 19.47 提升到 34.95;在 3D visual grounding 上,mAP 從 34.53 提升到 52.78。這組結果比較直接地說明,高斯表示并不是只對渲染或生成有用,它也能幫助 LLM 更好地理解 3D 駕駛環境。



在 nuScenes 上,

統一表示也服務 RGB-D 空間生成

多模態生成部分則主要在 nuScenes 上驗證。GaussianDWM 關注的不只是 RGB 圖像,還包括 RGB-D generation,這使得結果需要同時面對外觀質量和空間幾何的一致性。

在空間生成任務中,當視角位移為 ±1m 時,GaussianDWM 的 FID/FVD 為 8.36/44.50;當視角位移為 ±2m 時,FID/FVD 為 11.27/68.17。與 PVG、StreetGaussian、DiST-S 等方法相比,GaussianDWM 在小到中等位移下取得了更低的 FID/FVD。對于自動駕駛場景來說,這類結果的意義在于:模型不是單純做一張新圖,而是在盡量維持場景 3D 關系的前提下完成視角變化。







消融實驗:Gaussian、采樣和

World Knowledge 都是支撐模型能力的關鍵部分

論文中的消融實驗進一步解釋了每個設計的作用。去掉 Gaussian 后,模型平均指標為 53.32;加入 Gaussian 并使用 similarity sampling 后,平均指標提升到 59.23。這個差距說明,3D Gaussian 在理解任務中提供的不是可有可無的額外信息,而是能夠改變模型輸入質量的核心表示。

在生成任務上,dual-condition 的作用也比較清楚。只使用 low-level condition 時,±1m 下的 FID 為 10.12;加入 high-level world knowledge 后,FID 降到 8.36。更大的視角變化下,world knowledge 的貢獻更加明顯:在 ±4m 條件下,FID 從 21.79 降到 18.91。換句話說,當低層視覺條件不足以覆蓋更大空間變化時,高層語義和空間先驗開始發揮更重要的作用。



視頻展示:把生成能力放到動態場景中看



視頻鏈接:https://mp.weixin.qq.com/s/osoYZr1dCwceHv-0s7ZIsg?click_id=125

Overall visual walkthrough



視頻鏈接:https://mp.weixin.qq.com/s/osoYZr1dCwceHv-0s7ZIsg?click_id=125

Spatial generation



視頻鏈接:https://mp.weixin.qq.com/s/osoYZr1dCwceHv-0s7ZIsg?click_id=125

Temporal generation



視頻鏈接:https://mp.weixin.qq.com/s/osoYZr1dCwceHv-0s7ZIsg?click_id=125

Future prediction grid



Long-sequence prediction

結語:統一駕駛世界模型

需要可生成,也需要可查詢

GaussianDWM 的核心觀點可以概括為一句話:自動駕駛世界模型不應只追求生成未來畫面,也需要形成一個能被理解、被查詢、被用于定位和規劃的 3D 世界表示。3D Gaussian 在這里扮演了連接器的角色,它把幾何、外觀和語言語義放到同一個場景表示中,再通過 task-aware sampling 和 Gaussian Projector 進入 LLM。

在這個框架下,LLM 不只是負責回答問題,也會提取 world knowledge feature,并把理解結果繼續交給生成模塊使用。NuInteract 和 nuScenes 上的結果表明,這種統一表示同時改善了場景理解和多模態生成。對于自動駕駛世界模型來說,這可能比單純追求更清晰的視頻更重要:模型最終要服務的是一個會移動、會交互、需要解釋當前世界并預測未來世界的系統。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
這4個行業,已經發不出工資了!真的很嚴重了

這4個行業,已經發不出工資了!真的很嚴重了

細說職場
2026-06-13 14:08:51
獨行俠拒絕交易凱里?歐文的深層原因曝光,全是為了狀元弗拉格

獨行俠拒絕交易凱里?歐文的深層原因曝光,全是為了狀元弗拉格

夜白侃球
2026-06-14 13:37:12
鄭麗文這番話一放出來,火藥味一下就上來了。

鄭麗文這番話一放出來,火藥味一下就上來了。

果媽聊娛樂
2026-06-14 17:20:53
澳大利亞主帥:很多人覺得我們贏土耳其是冷門,但我們自己不這么認為

澳大利亞主帥:很多人覺得我們贏土耳其是冷門,但我們自己不這么認為

懂球帝
2026-06-14 16:44:57
對于明天周一A股,我只說3點:第一,4060點大概率是反彈的終點?

對于明天周一A股,我只說3點:第一,4060點大概率是反彈的終點?

趨勢清風俠
2026-06-14 08:46:04
炸了!2026高考作文竟出自四年級課本!說回歸課本,沒說回小學啊

炸了!2026高考作文竟出自四年級課本!說回歸課本,沒說回小學啊

娛樂的宅急便
2026-06-13 14:00:00
12000億光模塊巨頭,回應業績暴雷傳聞

12000億光模塊巨頭,回應業績暴雷傳聞

21世紀經濟報道
2026-06-14 14:12:59
黃日華回應主動上前擁抱劉德華但對方“黑臉”:演唱會結束后,他們通過電話,二人關系絕非網友所猜測

黃日華回應主動上前擁抱劉德華但對方“黑臉”:演唱會結束后,他們通過電話,二人關系絕非網友所猜測

臺州交通廣播
2026-06-13 18:19:03
突傳死訊! 臺灣知名歌手在夏威夷離世,剛剛和女友結束30年戀情

突傳死訊! 臺灣知名歌手在夏威夷離世,剛剛和女友結束30年戀情

史料布籍
2026-06-14 15:46:01
天津知名餐廳發布閉店通知...

天津知名餐廳發布閉店通知...

全接觸狐狐
2026-06-14 13:48:46
中國女排出征!機場照曝光,王夢潔好美,刁琳宇低調,龔翔宇自信

中國女排出征!機場照曝光,王夢潔好美,刁琳宇低調,龔翔宇自信

跑者排球視角
2026-06-14 14:15:01
向太再曝劉亦菲猛料,難堪一幕重現,與陳金飛真實關系早水落石出

向太再曝劉亦菲猛料,難堪一幕重現,與陳金飛真實關系早水落石出

夢醉為紅顏一笑
2026-06-14 08:58:03
張嘉益孫浩再組陜籍天團!《喜劇》選角吵翻天,這波真的贏麻了!

張嘉益孫浩再組陜籍天團!《喜劇》選角吵翻天,這波真的贏麻了!

觀察鑒娛
2026-06-14 16:02:56
震驚!女子得知被拒相親男娶“潮汕A9家庭”妻子,控訴他隱瞞家底

震驚!女子得知被拒相親男娶“潮汕A9家庭”妻子,控訴他隱瞞家底

火山詩話
2026-06-14 12:48:44
康城戰況究竟如何?烏軍真被包圍了嗎?

康城戰況究竟如何?烏軍真被包圍了嗎?

史政先鋒
2026-06-14 15:44:42
遇見小面起訴后續!索賠八千為何突然認慫,吃相難看結局大快人心

遇見小面起訴后續!索賠八千為何突然認慫,吃相難看結局大快人心

大魚簡科
2026-06-13 19:14:22
王毅成大明星了?訪問蒙古途中,蒙古人民驚嘆:中國的外長太帥了

王毅成大明星了?訪問蒙古途中,蒙古人民驚嘆:中國的外長太帥了

叮當當科技
2026-06-14 13:38:35
張雪奪第六冠,日媒集體破防:在三缸機領域,中國已經反超了日本

張雪奪第六冠,日媒集體破防:在三缸機領域,中國已經反超了日本

林子說事
2026-06-14 14:36:43
都罵董潔看走眼,但沒人知道,王大治除了外貌低配,其他全是頂配

都罵董潔看走眼,但沒人知道,王大治除了外貌低配,其他全是頂配

山谷里的怒吼
2026-06-12 13:22:54
??雨???雨???雨???!!江蘇入梅最新消息

??雨???雨???雨???!!江蘇入梅最新消息

最江陰
2026-06-14 17:05:17
2026-06-14 21:16:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
13256文章數 142669關注度
往期回顧 全部

科技要聞

Anthropic最強模型被禁,傳亞馬遜通風報信

頭條要聞

伊朗球員受訪 反問美記者:我在美國安全嗎

頭條要聞

伊朗球員受訪 反問美記者:我在美國安全嗎

體育要聞

8年8隊奪冠,鄧肯那句話,現在還給了馬刺

娛樂要聞

鄧超攜子觀戰NBA,等等帥氣十足

財經要聞

金價跌至900元關口,大媽又來抄底了!

汽車要聞

綜合續航超1600km/零百加速4秒級 2027款星途ES預售18.99萬起

態度原創

健康
親子
數碼
教育
旅游

老人、小孩、孕婦,吃粽子有啥風險

親子要聞

去小院看爺爺奶奶,一見面就親的不行,還得是大孫子隔輩親啊!

數碼要聞

出貨量兩連冠:華為朱懂東稱鴻蒙平板連續兩年在國內絕對領先

教育要聞

高三生必看!四川省本科高校2026年招生章程要點匯總

旅游要聞

美麗北京|圓明園荷花基地悄然入夏

無障礙瀏覽 進入關懷版