![]()
首個支持物理仿真的三維生成模型來了!
僅憑一張普通照片,AI 就能直接生成 3D 數字模型,并預測重量、軟硬、關節活動等真實的物理屬性。也就是說,AI 生成的不再只是與照片描述長得相似的資產,而是真的能夠與物理世界進行交互,并有望對具身智能、物理 AI、AI for Science 的模型直接進行訓練。
近期,新加坡南洋理工大學劉子緯副教授團隊開發了統一的三維生成框架 PhysX-Omni,打通了剛體、可變形體、關節體(鉸鏈體)三類資產的物理級 3D 生成。研究人員發明了一種模板化游程編碼,不僅直接讓語言模型讀懂三維結構,還顯著提升了生成性能。
“之前 3D 模型生成需要進行實際掃描和采集,但由于價格昂貴且無法規模化,并不適用于大模型的可擴展性。”劉子緯對 DeepTech 表示。而 PhysX-Omni 開啟了近乎無窮無盡的生產模式,相當于做數據基建,不斷為物理 AI 生產提供訓練素材。
![]()
(來源:arXiv)
PhysX-Omni 的模型僅 7B(Qwen2.5-VL-7B-Instruct),總體推理成本低。據研究人員預估,其成本是傳統仿真軟件的 1/10 到 1/20。更值得關注的是,其絕對尺度預測誤差從 300 左右降到 2.79,提升了兩個數量級。這意味著,AI 生成的椅子不再是“大約這么高”,而是精準的“就是 65 厘米高”。
PhysX-Omni 在仿真就緒場景生成與機器人策略學習等場景中表現出應用潛力,包括具身智能、物理仿真、游戲、影視等領域。相關論文以“PhysX-Omni: Unified Simulation-Ready Physical 3D Generation for Rigid, Deformable, and Articulated Objects”為題,發表在預印本網站 arXiv[1]。
讓 AI 學會物理常識:從“看得美”到“能交互”
如果我們想用 AI 生成一個箱子,大部分模型并不知道用多大的力去推它,在有風吹的情況下它會不會倒,或移動多少距離。現有 3D 模型生成類似于“真空中的球形雞”,盡管整體生成得好看,但與外界并無任何交互,常出現穿模、漂浮、關節亂轉等問題。
在過去的三維領域,剛體、可變形體和關節體通常各自研究。研究團隊發現,這三個子領域本質上可能是同一個問題,因此除了數字世界可用同一套代碼,物理世界背后的結構其實也有可能用一套代碼來表示。
這項研究相當于為AI提供了物理常識,將 3D 模型生成從生成得好看,轉變為能夠交互和好用。不僅能促進跨類型學習,還降低了開發成本和門檻。
以機器人疊衣服為例,衣服是個可變形物體,疊完后將它放到箱子里,是剛體;然后打開衣柜,衣柜則是關節體。當知道怎么去疊衣服,可能反過來能幫助做一些其他的任務。
![]()
(來源:arXiv)
強化學習之父理查德·薩頓(Rich Sutton)在經典文章《苦澀的教訓》(The Bitter Lesson)中提到,只要數據量足夠多,中間產物可能會自然地涌現出來,因此只需要定好最終目標。“我們最原初的設計哲學也受到了這種觀點的啟發,希望盡量實現端到端的學習。”劉子緯表示。
以往研究要么壓縮丟細節,要么用分割模塊引入錯誤。PhysX-Omni 使用了新的幾何表達方式,它將每個部件的三維網格沿Z軸切成一層層二維掩膜,基于經典的游程編碼,再將每個切片壓縮為文本串。
其模板 RLE 表示既保留了高分辨率的結構信息,又繞過了中間表征進行直接建模,從而減少了誤差累積。新編碼方式最直觀的變化表現在兩方面:一是高度保持 3D 細節;二是高效,即編碼同樣的信息,可比之前工作再少 1/4 到 1/5 的 tokens。
![]()
圖丨PhysXVerse 的統計與分布(來源:arXiv)
為了訓練該框架,研究人員構建了首個通用仿真就緒 3D 數據集 PhysXVerse。它從 PartVerse 的精細標注中篩選過濾,保留了 8,700 個以上高質量資產,覆蓋 2,900 多個室內外類別,從直升機、坦克、賽車到摩天大樓和玩具,部件數量從單個剛體延伸到 65 個零件的復雜鉸接系統。
每個資產在具有幾何網格之外,還通過人工校驗的方式將絕對尺寸、材質類型、功能語義、關節類型和運動范圍等物理標注補齊。
誤差驟降 100 倍,一張照片生成仿真級 3D 資產
但是,僅具有數據和模型還不夠,為進一步在開放環境中全面、靈活地評估生成與理解能力,研究團隊還提出了評測基準 PhysX-Bench,其涵蓋了幾何、絕對尺度、材料、可供性(物體可被如何操作)、運動學與描述六個關鍵屬性維度。
這套評測巧妙之處在于,并非依賴昂貴的真實標注,而是用仿真測物理,不僅避免了人工標注的主觀性,也更能更真實地反映資產在實際部署中的表現。
PhysXVerse 數據集結果顯示,PhysX-Omni 的 PSNR 為 21.52,Chamfer Distance 降至 2.95,F-score 達 91.28,幾何精度全面超越此前最優方法。更值得關注的是絕對尺度誤差:從 PhysXGen 的 309.31 驟降至 2.79,幾乎提升了兩個數量級。
“PhysX-Omni在絕對尺度誤差的表現有些出乎我們的意料。”劉子緯表示。這與研究團隊的兩個觀察密切相關。首先,研究人員發現此前很多數據天然帶幻覺,因此他們將數據進行了重新編排和清洗。其次,通過新編碼方式,它對絕對尺度的分辨率顯著提高,進而更精準地理解真實世界的物體尺寸。
![]()
(來源:arXiv)
此外,這可能也與大模型本身的潛能有關,通過激發讓它表現出來。這個觀察在近期 Meta 的相關研究中也進行了印證,其發現用一個視覺語言模型可以學到很多很強的 3D 能力,而不需要一個專門的 3D 專家模型。
在 PhysX-Bench 的開放場景評估中,PhysX-Omni 在材料、可供性、運動學和描述等維度都創造了最佳成績紀錄,表現出強泛化能力。
此外,研究人員也在大量的真實場景案例中進行了驗證,這類樣本大部分無法獲取大規模的 3D 標注,但可通過人工標注的方式制作少量標注數據,用于結果判別。多組對照驗證顯示,實測結果與仿真數據集得出的結論能夠相互佐證。
“當前該領域的發展階段,和大語言模型發展早期十分相似。早期研究者普遍依靠各類仿真數據、文本生成數據開展實驗,后續業界才逐步搭建起各類真實世界基準測試集。”劉子緯表示。這項研究也為后續相關研究提供新的啟發,尤其適用于三維物理仿真領域的評測工作。
團隊還驗證了 PhysX-Omni 在下游任務中的實際價值。由于這套資產針對目前市面上主流的仿真器完成了適配定制,因此其可將生成的資產一鍵導入到物理仿真器,用于機器人操作策略學習。在包括打開馬桶蓋、操作咖啡機、旋轉椅子、關閉柜門等接觸豐富的交互任務中,生成的資產在動態交互中表現出結構穩定和物理一致性,無需任何人工后處理。
此外,結合深度估計和圖像分割技術,PhysX-Omni 還能從單張場景照片出發,重建 3D 布局并自動填充仿真就緒資產,實現場景級別的物理仿真環境構建。這預示著,未來機器人訓練、具身智能研究或許可以不再耗費大量人力搭建虛擬場景,對整個仿真流程取而代之的正是一張實拍照片。
機器人訓練的新“燃料”:AI 開始批量生產物理世界
過去,行業內做具身智能/機器人訓練的三條主流技術路線是:仿真、人類數據與實體真機實操。而仿真方案之所以沒有真正“用起來”,正是因為物理仿真效果差和真實度不足。這項研究利用自研資產開展具身智能策略學習相關實驗,結果證實仿真能夠有效優化智能策略,驗證了仿真方案的實用價值。
從應用角度來看,該技術可能率先在游戲與影視工業(AR、VR)、交互內容類場景落地,它能夠與所有資產進行真實物理交互,并可縮短物理特效和互動場景的制作周期。
隨著技術的發展,它可能應用在具身智能領域,成為連接識別物體與操作物體的橋梁,讓AI真正理解和實現更真實的物理特性、精細程度,并能夠與物理世界交互。更長遠地看,如果可將物理仿真的精度進一步提升,該技術還可能在AI for Science領域替代部分高成本的實體科學實驗。
據了解,目前大曉機器人公司已將 PhysX-Omni 應用于其仿真平臺。此外,也有一些硅谷初創公司對這項技術表現出濃厚興趣。在接下來的研究階段中,研究團隊計劃繼續探索如何讓長尾數據高效學習,如何將物體級建模擴展到場景級建模,并讓物體擺放方式的關系更合理,以更接近實際應用。
參考資料:
1.https://arxiv.org/abs/2605.21572
注:封面/首圖由 AI 輔助生成
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.