網易首頁 > 網易號 > 正文 申請入駐

ICLR 2026 I 英偉達 & 普渡大學用agent閉環實現文生3D

0
分享至



大模型正在進入 “Agent 時代”

大模型正在從 “會說會寫” 走向 “會規劃、會執行” 的 Agent 時代。對具身智能來說,這種變化尤其關鍵。因為真正限制機器人和智能體能力上限的,很多時候并不是算法本身,而是現實世界中過高的試錯成本:一次抓取失敗、一次路徑規劃失誤,代價都遠高于在虛擬環境中的反復迭代。也正因如此,一個物理合理、結構真實、能夠支撐交互和仿真的 3D 世界,正變得越來越重要。

從一句文本描述直接生成一個真正 “能用” 的三維場景,遠比生成幾張好看的圖片更難。一個場景是否可用,不僅取決于里面有沒有桌子、椅子和書架,而且取決于這些物體之間的關系是否合理:杯子能不能真正放在桌面上,書能不能被擺進書架里,椅子是不是面向一個符合使用常識的位置,整個空間會不會出現穿插、漂浮和不穩定支撐。換句話說,3D 場景生成最難的地方,從來不是 “生成資產”,而是讓空間關系看起來像真實世界,并且真的能夠服務于交互、仿真和具身智能任務。

圍繞這一問題,來自英偉達 Cosmos Lab 與普渡大學的研究者提出了 Scenethesis(ICLR 2026)。與其過擬合小樣本的 3D 場景數據,他們換了一個思路:把語言、視覺和物理約束組織成一個可以自我迭代的 Agent 閉環系統,讓文本生成 3D 場景這件事,不再只是一次性的 “生成”,而更像一個不斷規劃、檢查、修正的過程。



  • 論文標題:Scenethesis: A Language and Vision Agentic Framework for 3D Scene Generation
  • 文章鏈接:https://arxiv.org/pdf/2505.02836
  • 英偉達網站:https://research.nvidia.com/labs/dir/scenethesis/

可交互三維場景生成的兩個長期困境

過去幾年里,可交互 3D 場景生成大致沿著兩條路線發展。

第一類方法依賴 3D-FRONT 等室內數據集訓練模型,在室內布局上已經取得了不少進展,但它們的能力往往也被訓練分布牢牢鎖住了:會擺客廳和臥室,不代表能自然泛化到其他室內布局,甚至街道、海灘或公園等室外場景;能處理常見家具關系,也不意味著能穩定建模 “小物體放置于大物體中” 這類更細粒度、更長尾的空間關系。

另一類方法則開始借助大語言模型做開放式布局規劃。語言模型的優勢是組合能力強、語義覆蓋廣,能夠根據文本描述快速搭出場景框架,但它畢竟運行在符號空間里,不在幾何空間里。于是我們經??吹竭@樣的結果:物體類別是對的,關系描述也大體沒錯,可一旦落到真實三維空間,就會出現椅子朝墻、柜子擋窗、物體浮空甚至彼此穿插等不符合常識的現象。

核心問題:如何有效生成 “空間物理真實的 3D 場景”?

Scenethesis 的出發點,正是在這兩類路線之間找到一個新的結合方式。研究者注意到,語言模型擅長的是語義規劃,卻缺少對真實空間的直覺;而視覺模型雖然不會直接 “理解” 場景邏輯,卻天然攜帶大量現實世界的空間統計先驗。

因此,這項工作的核心并不是把幾個模塊簡單拼起來,而是讓它們在一個閉環里各司其職:先由語言模型做粗粒度規劃,再借助視覺模塊把抽象的語義關系落到更真實的空間布局中,隨后引入物理優化去消除穿模和不穩定支撐,最后再由判斷模塊檢查整個場景是否滿足常識與一致性要求,不滿足就繼續修復。



系統流程圖

Scenethesis:四階段 Agent 系統

Scenethesis 是一個無需重新訓練場景生成模型的系統框架,其流程包含四個階段。

第一階段:語義模型進行粗粒度規劃

在具體流程上,Scenethesis 會先根據文本提示識別場景類型、挑選關鍵錨點物體,并構建一個初步的層級布局。這個階段更像 “構思”,會理解用戶輸入的場景類型,然后推理場景里應該有什么、哪些物體之間會有空間關系,確保資產庫中有規劃好的物體,最后以 JSON 格式輸出選中的物體以及擴充過的場景描述。



第二階段:視覺模塊進行空間落地

真正讓這項工作區別于很多語言規劃方法的是視覺模塊的介入和物理優化的過程:系統先生成參考圖像,再通過實例分割和深度估計恢復場景結構,估計物體的初始 3D 大小,從而把原本停留在語言層面的描述,轉化為更加貼近真實世界的空間線索。到了這一步,系統已經不再是憑語言 “腦補” 布局,而是在借助視覺先驗讓場景變得更像現實空間。



第三階段:物理參與生成過程

為了讓場景生成不僅僅是 “視覺上看起來不錯”,還需要確保生成的場景符合物理規律。傳統布局方法常常只在 3D 包圍盒層面做碰撞檢查,這對于復雜物體關系來說過于粗糙,既難以表達精細接觸,也很難處理 “放進書架里” 這類更復雜的支撐關系。Scenethesis 采用有符號距離場 (SDF),用更細粒度的幾何對齊與物理約束,讓優化過程直接考慮接觸、支撐和穩定性。這樣一來,小物體不只是 “看起來” 靠近某個大物體,而是真正被放進了合理的位置;整個場景也因此顯著減少了漂浮、穿插和不穩定現象。



第四階段:自檢與修復機制

系統最后還加入了 judge 模塊,對物體類別、空間關系和整體結構進行一致性判斷。如果場景沒有通過檢查,系統就會重新規劃和修復。這種 “生成 — 檢查 — 修復 — 再生成” 的閉環,讓 3D 場景生成第一次更接近 Agent 式工作流。它不是一次性吐出結果,而是在多模態反饋中不斷把結果推向更合理的狀態。實驗顯示:第一輪生成通過率約 72%,引入自檢機制后提升至 91%。



實驗結果:空間關系不僅更真實,而且 “物理” 合理

從結果上看,這種路線帶來的提升并不只是視覺上的 “更像”,而是空間關系和物理合理性的同步改善。論文顯示,加入這套閉環后,場景生成在碰撞率從 6.1% 降至 0.8%,同時還能更穩定地處理上方、內部、下方等更豐富的空間關系。更重要的是,這種方法并沒有被室內數據分布鎖死,在海灘、街道、公園等戶外環境中,同樣能夠生成開放性的結構更自然、物理更可信的可交互場景。對于虛擬內容創作、仿真環境搭建以及具身智能訓練來說,這一點尤其關鍵:研究者真正需要的,從來不是一套只能擺拍的三維世界,而是一個能夠被操作、被編輯、被反復試驗的空間環境。



Scenethesis 與其他方法生成的場景對比



只需要給一段文字描述,Scenethesis 就能生成對應的可交互三維場景

未來方向

當然,Scenethesis 也并不是終點。它仍然受到資產庫多樣性、遮擋場景下對應精度以及可動結構資產支持能力的影響。但這項工作的價值在于,它提供了一種很有代表性的方向:當文本到 3D 不再只是 “生成一個結果”,而是變成一個由語言、視覺和物理共同驅動的閉環過程,我們也許才真正開始逼近 “可交互世界生成” 這件事的核心。對于正在走向空間智能和具身智能的大模型來說,這或許比再做一個更會擺家具的生成器,更接近下一階段真正重要的問題。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
經緯度:全面跑贏全國,長三角經濟“開門紅”的密碼

經緯度:全面跑贏全國,長三角經濟“開門紅”的密碼

澎湃新聞
2026-05-07 11:54:27
利率1.3%沒人存!銀行員工納悶:現在老百姓存錢,到底在琢磨啥?

利率1.3%沒人存!銀行員工納悶:現在老百姓存錢,到底在琢磨啥?

生活新鮮市
2026-05-08 12:03:33
深圳一路段突發車禍,有人被困!緊急救援

深圳一路段突發車禍,有人被困!緊急救援

深圳晚報
2026-05-08 14:13:14
隨著鄭欽文2-0挑落種子+狂攬33萬獎金,賽后傳來了5個好消息

隨著鄭欽文2-0挑落種子+狂攬33萬獎金,賽后傳來了5個好消息

林子說事
2026-05-07 19:37:57
徐正源:隊里很多球員的體能水平未能匹配中超的競爭強度

徐正源:隊里很多球員的體能水平未能匹配中超的競爭強度

懂球帝
2026-05-08 08:26:06
毛主席批閱文件,發現署名竟為“少將”,笑道:這是受委屈了?。?>
    </a>
        <h3>
      <a href=毛主席批閱文件,發現署名竟為“少將”,笑道:這是受委屈了啊? 歷史甄有趣
2026-05-08 12:20:20
吳宜澤奪冠回國后首度公開露面:現身西安一臺球館與粉絲互動,大批球迷用“噓聲”表示歡迎

吳宜澤奪冠回國后首度公開露面:現身西安一臺球館與粉絲互動,大批球迷用“噓聲”表示歡迎

極目新聞
2026-05-07 22:10:46
烏克蘭人正在打破俄羅斯的第三個神話

烏克蘭人正在打破俄羅斯的第三個神話

走進烏克蘭2022
2026-05-07 19:38:54
三大“臺獨”分子祖宗事跡曝光,全是漢奸后代,都曾為日本人做事

三大“臺獨”分子祖宗事跡曝光,全是漢奸后代,都曾為日本人做事

知鑒明史
2026-05-07 18:30:07
利雅得勝利下輪擊敗新月即可奪冠,輸球將丟失爭冠主動權

利雅得勝利下輪擊敗新月即可奪冠,輸球將丟失爭冠主動權

懂球帝
2026-05-08 05:05:52
定了!今晚江蘇油價這樣調!

定了!今晚江蘇油價這樣調!

江南晚報
2026-05-08 18:11:43
成都“牽手門”事件,女主現狀曝光:丟掉國企飯碗后她后悔了么?

成都“牽手門”事件,女主現狀曝光:丟掉國企飯碗后她后悔了么?

一口娛樂
2026-05-08 14:43:37
你們都是什么時候對男女之事開竅的?網友:果然還是攔不住有心人

你們都是什么時候對男女之事開竅的?網友:果然還是攔不住有心人

夜深愛雜談
2026-02-21 21:37:02
8日世乒賽:周啟豪不上,王楚欽發文,林詩棟迎挑戰,直播有變

8日世乒賽:周啟豪不上,王楚欽發文,林詩棟迎挑戰,直播有變

老嗮說體育
2026-05-08 07:32:59
內訌增大楚阿梅尼離隊幾率?古力特:無沖突,不足球

內訌增大楚阿梅尼離隊幾率?古力特:無沖突,不足球

體壇周報
2026-05-08 18:26:12
兩性關系:61歲退休女醫生自述,生理上的動心根本藏不住

兩性關系:61歲退休女醫生自述,生理上的動心根本藏不住

三農老歷
2026-05-08 18:19:37
CCTV5直播!國乒男隊VS韓國,王楚欽連下2分,復仇韓國晉級4強

CCTV5直播!國乒男隊VS韓國,王楚欽連下2分,復仇韓國晉級4強

體育就你秀
2026-05-08 10:54:39
長得太美被導演占為己有,25歲生下3個孩子,如今個個都給她爭光

長得太美被導演占為己有,25歲生下3個孩子,如今個個都給她爭光

攬星河的筆記
2026-05-07 20:18:36
中國移動董事長陳忠岳:將開放萬億級詞元(Token)服務體驗包

中國移動董事長陳忠岳:將開放萬億級詞元(Token)服務體驗包

毛啟盈Ai圈
2026-05-08 11:44:34
胃熱是光吃不拉,脾虛是一吃就拉,肝郁是不停放屁,中醫一招調理

胃熱是光吃不拉,脾虛是一吃就拉,肝郁是不停放屁,中醫一招調理

垚垚分享健康
2026-04-29 11:24:29
2026-05-08 19:32:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
12950文章數 142646關注度
往期回顧 全部

科技要聞

SK海力士平均獎金600萬 工服成相親神器

頭條要聞

伊朗成立新部門 所有想過霍爾木茲的船要先填40多道題

頭條要聞

伊朗成立新部門 所有想過霍爾木茲的船要先填40多道題

體育要聞

他把首勝讓給隊友,然后用一年時間還清賬單

娛樂要聞

古天樂被曝隱婚生子,新娘竟是她

財經要聞

輪到豆包收割了?

汽車要聞

智能雙艙大五座SUV 樂道L80將于5月15日正式上市

態度原創

教育
時尚
本地
房產
數碼

教育要聞

南京江寧區2026年小學、初中招生入學工作實施細則

?;晟来钆浒咨?,更解暑!

本地新聞

用蘇繡的方式,打開江西婺源

房產要聞

豪擲6.8億拿地!何猷君大手筆投資三亞!

數碼要聞

AI時代 CPU依然中流砥柱!AMD加冕數據中心之王

無障礙瀏覽 進入關懷版