網易首頁 > 網易號 > 正文 申請入駐

CMU等團隊:PAT3D把文生3D從能看推進到能模擬、能交互

0
分享至



論文已被 ICLR 2026 接收,第一作者為 CMU 博士生林谷穎,師從 CMU 的李旻辰教授。研究團隊中還包括 CMU 的 Jun-Yan Zhu 教授、Michael Liu、高睿晗、陳瀚可、陳律豪、盧貝嘉、HKU 的 Taku Komura 教授、黃可蒙,以及 HKUST 的劉緣教授。

現在的 3D AIGC 已經可以很快生成場景,但離真正落地還有一段距離。很多場景看起來還行,一進物理模擬就會暴露問題,比如物體懸空、互相穿插,甚至還沒碰就散。這些問題讓它們很難直接用于游戲、XR 或機器人等實際場景。

問題的根源在于,過去的大多數文生 3D 方法主要優化的是視覺效果:只要渲染出來看起來合理就可以。但這種做法忽略了一個關鍵點——場景是否在物理上成立。一旦進入模擬環境,物體之間的接觸、支撐關系以及整體穩定性都會成為問題,而這些恰恰是實際應用中最關鍵的部分。

來自卡耐基梅隆大學(CMU)、香港大學(HKU)和香港科技大學(HKUST)的研究團隊提出了 PAT3D(Physics-Augmented Text-to-3D Scene Generation),嘗試解決這個問題。他們的目標很直接:讓生成的 3D 場景不只是視覺上合理,而是在物理上也站得住,可以直接用于編輯、交互和仿真。



圖 1:PAT3D 關注的不只是視覺效果,而是讓場景在模擬中也能成立。



  • 論文標題:PAT3D: Physics-Augmented Text-to-3D Scene Generation
  • 論文地址:https://openreview.net/pdf?id=iIRxFkeCuY
  • 論文作者:Guying Lin, Kemeng Huang, Michael Liu, Ruihan Gao, Hanke Chen, Lyuhao Chen, Beijia Lu, Taku Komura, Yuan Liu, Jun-Yan Zhu, Minchen Li
  • 作者單位:卡耐基梅隆大學、香港大學、香港科技大學
  • 項目主頁:https://simulation-intelligence.github.io/PAT3D/
  • 代碼鏈接:https://github.com/Simulation-Intelligence/PAT3D

PAT3D 是怎么做的?

PAT3D 的思路可以概括成三步。

第一階段是3D 物體與空間關系抽取。系統先根據文本提示生成一張參考圖,再借助視覺語言模型識別場景中的物體類別、材質和相對位置,并把圖像分割成多個對象區域。隨后,系統為每個對象分別生成 3D 資產,而不是把整個場景直接做成一個整體網格。這樣做的關鍵意義在于:后續每個物體都能作為獨立剛體參與接觸、碰撞和支撐關系計算。

第二階段是布局初始化。PAT3D 會先利用單目深度估計,把 2D 參考圖回投成粗略的 3D 布局,再根據視覺語言模型抽取出的物體依賴關系,構建一個層級化的「場景樹」。這個「場景樹」描述的不是普通語義標簽,而是沿重力方向的物理依賴,例如「支撐」「包含」等。在此基礎上,PAT3D 會對初始布局做兩類修正:

一類是同層物體之間的水平去重疊,避免兄弟節點互相擠壓;另一類是父子節點之間沿重力方向的垂直分離,例如讓「杯子里的筆」先處在合理的容器范圍內、讓「桌上的書」先位于桌面的支撐區域之上。這樣得到的初始化場景,不一定已經完全穩定,但至少是無穿插、適合進入物理模擬的。

第三階段是布局優化。PAT3D 引入了 libuipc 的可微剛體仿真,讓物體在重力和接觸力作用下朝靜力平衡狀態演化。這里更關鍵的一點是,它并不滿足于「只要物理上站得住就行」。因為單靠物理仿真,很多場景雖然穩定,卻可能偏離文本語義,比如本應放在桌上的物體滑落到地面,依然可能是一個物理上成立的終態。

為了解決這個問題,PAT3D 引入了基于物理模擬的閉環優化:它根據最終模擬狀態是否滿足「場景樹」中的包含與支撐關系,定義語義損失,再把這個損失反向傳回初始布局,持續調整初始位置。這樣,最終得到的不是單純「不會倒」的場景,而是「既穩定、又盡量保留文本語義」的場景。



圖 2:PAT3D 將物體生成、關系理解、布局初始化和物理優化串聯成一個完整流程。

下面的視頻展示了一個具體示例的生成過程。

實驗結果說明了什么?

從結果看,PAT3D 的優勢并不只是「更穩定一點」,而是把場景生成從「能展示」推到了「能落地」。在包含 18 個復雜提示詞的測試中,PAT3D 與 GraphDreamer、Blender-MCP、MIDI 等方法進行了比較。結果顯示,PAT3D 在關鍵物理指標上非常突出:繼續模擬位移為 0,物體穿插比例為 0,物理合理性評分高達 88.5。



圖 3:PAT3D 與現有方法在場景質量和物理合理性上的定量對比。

更直觀地看,在書本、杯子、餐具、積木、水果籃這些接觸關系比較復雜的場景里,PAT3D 能避免物體懸空和模擬后坍塌,并且明顯減少擺放錯位。以積木堆疊為例,普通方法生成的布局往往要么不符合物理規律,要么一進入模擬就容易倒掉;而 PAT3D 會進一步調整初始擺放,使最終穩定下來的結果仍然盡量貼近文本描述。



圖 4:與已有方法相比,PAT3D 在復雜接觸場景里更容易得到物理合理的結果。

為什么這項工作值得關注?

更重要的是,PAT3D 的結果不是停留在論文圖里的靜態展示,而是可以直接拿去做后續任務。論文里展示了三個很有代表性的應用方向。

第一個是場景編輯。當用戶刪除一個筆筒、抽走一本書,或在原有布局上再加一個物體時,場景不會立刻變成一團穿插或懸空的模型,而是能在模擬中重新達到平衡。這意味著未來的 3D 內容創作可以更像「搭積木」。



圖 5:PAT3D 支持增刪物體后的物理一致場景編輯。注:此處仿真為準靜態。

第二個是動畫制作。PAT3D 生成的場景本身就滿足基本的物理約束,因此不需要再花很多時間手動修正和調整初始布局,就可以直接用于后續動畫制作。換句話說,它生成的不只是一個靜態場景,而是一個已經為運動和模擬做好準備的場景。在傳統的物理仿真動畫制作中,場景建模上往往需要花費大量時間,PAT3D 無疑將大大提高其效率。



圖 6:PAT3D 生成的場景可直接用于后續動畫制作。

第三個是機器人仿真。機器人通常需要靠模擬環境檢驗學習到的抓取、搬運和交互策略。如果場景本身存在漂浮、重疊或碰撞不合理等問題,那么訓練出來的結果往往也不可靠。PAT3D 生成的場景可以直接導入模擬器,用來測試抓取是否成功、操作過程中物體會不會傾倒,從而為機器人訓練和評估提供大量更可信的環境。



圖 7:當生成的場景能夠直接進入機器人模擬流程,文本到場景的價值就不再只是展示。左圖展示了成功抓取的例子,右圖展示了失敗抓取的例子。

PAT3D 的意義,不只是讓生成結果更好看,而是讓 3D 生成更接近真正可用。隨著生成系統開始同時理解和處理語義、結構與物理,它面向的也不再只是展示層面的效果,而是更完整的數字內容生產流程,以及機器人、仿真等更真實的應用場景。

同時,PAT3D 的成功也讓我們看到將物理仿真用于 3D 生成任務的巨大潛力。更可貴的是,其源代碼已在 Apache-2.0 許可下開源,這不僅降低了研究復現與二次開發的門檻,也為社區進一步驗證、擴展和落地這一路線提供了堅實基礎。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
21死!1.5萬罰單兌成一朵百米高蘑菇云,華盛煙花廠處罰決定流出

21死!1.5萬罰單兌成一朵百米高蘑菇云,華盛煙花廠處罰決定流出

火山詩話
2026-05-05 10:31:47
虧損超1.5億!《寒戰1994》票房崩塌,我感慨:這塊金字招牌砸了

虧損超1.5億!《寒戰1994》票房崩塌,我感慨:這塊金字招牌砸了

靠譜電影君
2026-05-05 10:40:44
特朗普:美國正從委內瑞拉獲得數億桶石油,與委方“關系良好”,大型能源企業已入委開發資源!已賣了1億桶委石油,賺回出兵成本的37倍

特朗普:美國正從委內瑞拉獲得數億桶石油,與委方“關系良好”,大型能源企業已入委開發資源!已賣了1億桶委石油,賺回出兵成本的37倍

每日經濟新聞
2026-05-05 12:32:23
確定!正式官宣加盟,空降達拉斯啊,弗拉格終于有救了?

確定!正式官宣加盟,空降達拉斯啊,弗拉格終于有救了?

球童無忌
2026-05-05 13:40:30
“4小時走5公里”!第一批返深大軍昨夜已堵瘋!深圳北站凌晨被擠爆

“4小時走5公里”!第一批返深大軍昨夜已堵瘋!深圳北站凌晨被擠爆

南方都市報
2026-05-05 15:17:54
舌吻3小時、喊兒子小狼狗,狄鶯的畸形母愛終于反噬了

舌吻3小時、喊兒子小狼狗,狄鶯的畸形母愛終于反噬了

子芫伴你成長
2026-05-02 22:50:39
臺灣省一季度GDP增長13.69%,人均GDP突破四萬美元,超過日韓!

臺灣省一季度GDP增長13.69%,人均GDP突破四萬美元,超過日韓!

狐貍先森講升學規劃
2026-05-05 05:25:03
賴清德搭機返臺,航線軌跡暴露1個問題,4架臺空軍F16V將護航伴飛

賴清德搭機返臺,航線軌跡暴露1個問題,4架臺空軍F16V將護航伴飛

知法而形
2026-05-05 11:22:49
谷愛凌穿“會吐泡泡”的高定裙子亮相Met Gala,裙子上有1.5萬顆玻璃泡泡,制作耗時2550小時

谷愛凌穿“會吐泡泡”的高定裙子亮相Met Gala,裙子上有1.5萬顆玻璃泡泡,制作耗時2550小時

魯中晨報
2026-05-05 16:26:17
鄭麗文:統一就要尊重2300萬臺灣人的意愿,不能把刀架在脖子上!

鄭麗文:統一就要尊重2300萬臺灣人的意愿,不能把刀架在脖子上!

阿龍聊軍事
2026-05-05 11:00:28
瀏陽爆炸已致26人死亡,工廠的“防爆距離”,為什么沒起效?

瀏陽爆炸已致26人死亡,工廠的“防爆距離”,為什么沒起效?

社會醬
2026-05-05 15:44:11
高市早苗在澳大利亞這一跪,跪出了日本最丑陋的一面!

高市早苗在澳大利亞這一跪,跪出了日本最丑陋的一面!

朋筆生輝
2026-05-05 15:10:25
墨菲輸球后說出大實話:決勝局那桿中袋紅球,全場只有3個人敢打

墨菲輸球后說出大實話:決勝局那桿中袋紅球,全場只有3個人敢打

7號觀察室
2026-05-05 09:47:56
文班11+15+12帽刷爆紀錄:多項歷史第一難阻惜敗 三分8中0太慘

文班11+15+12帽刷爆紀錄:多項歷史第一難阻惜敗 三分8中0太慘

醉臥浮生
2026-05-05 12:14:56
21死61傷,瀏陽煙花廠爆炸最新傷亡情況公布,一細節讓人后怕

21死61傷,瀏陽煙花廠爆炸最新傷亡情況公布,一細節讓人后怕

Mr王的飯后茶
2026-05-05 10:02:05
2名中國游客日本登山遇險,1人獲救,另一人救援困難!朋友發中日雙語求助,稱氣溫極度寒冷,兩人食物耗盡

2名中國游客日本登山遇險,1人獲救,另一人救援困難!朋友發中日雙語求助,稱氣溫極度寒冷,兩人食物耗盡

揚子晚報
2026-05-05 17:24:46
日本部署消耗性超廉價紙板無人機:售價2000美元 可在5到10分鐘內組裝完成

日本部署消耗性超廉價紙板無人機:售價2000美元 可在5到10分鐘內組裝完成

快科技
2026-05-05 10:29:05
被打臉?顏丙濤曾表示:趙心童是頂級高手,吳宜澤只能算是高手

被打臉?顏丙濤曾表示:趙心童是頂級高手,吳宜澤只能算是高手

風過鄉
2026-05-05 07:30:04
研究表明:性生活次數不達標,不管男女容易早衰且癌癥風險增高!

研究表明:性生活次數不達標,不管男女容易早衰且癌癥風險增高!

黯泉
2026-05-03 20:25:37
為什么發達國家對中國都不友好?

為什么發達國家對中國都不友好?

新浪財經
2026-05-04 07:26:54
2026-05-05 17:48:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
12917文章數 142642關注度
往期回顧 全部

科技要聞

傳蘋果考慮讓英特爾、三星代工設備處理器

頭條要聞

四川一企業盜采河水作飲用水售賣十年 當地回應

頭條要聞

四川一企業盜采河水作飲用水售賣十年 當地回應

體育要聞

全世界都等著看他笑話,他帶國米拿下冠軍

娛樂要聞

英皇25周年演唱會 張敬軒被救護車拉走

財經要聞

瀏陽煙花往事

汽車要聞

同比大漲190% 方程豹4月銷量29138臺

態度原創

本地
數碼
健康
公開課
軍事航空

本地新聞

用青花瓷的方式,打開西溪濕地

數碼要聞

消息稱聯想旗下摩托羅拉“高端定位1.5K LCD面板”擱淺

干細胞治燒燙傷面臨這些“瓶頸”

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

特朗普威脅伊朗不要向美國船開火

無障礙瀏覽 進入關懷版