網易首頁 > 網易號 > 正文申請入駐

南洋理工推出支持物理仿真三維模型！生成資產可部署于機器人訓練

2026-06-21 21:17:07　來源: DeepTech深科技

北京舉報

分享至

首個支持物理仿真的三維生成模型來了！

僅憑一張普通照片，AI 就能直接生成 3D 數字模型，并預測重量、軟硬、關節活動等真實的物理屬性。也就是說，AI 生成的不再只是與照片描述長得相似的資產，而是真的能夠與物理世界進行交互，并有望對具身智能、物理 AI、AI for Science 的模型直接進行訓練。

近期，新加坡南洋理工大學劉子緯副教授團隊開發了統一的三維生成框架 PhysX-Omni，打通了剛體、可變形體、關節體（鉸鏈體）三類資產的物理級 3D 生成。研究人員發明了一種模板化游程編碼，不僅直接讓語言模型讀懂三維結構，還顯著提升了生成性能。

“之前 3D 模型生成需要進行實際掃描和采集，但由于價格昂貴且無法規模化，并不適用于大模型的可擴展性。”劉子緯對 DeepTech 表示。而 PhysX-Omni 開啟了近乎無窮無盡的生產模式，相當于做數據基建，不斷為物理 AI 生產提供訓練素材。

（來源：arXiv）

PhysX-Omni 的模型僅 7B（Qwen2.5-VL-7B-Instruct），總體推理成本低。據研究人員預估，其成本是傳統仿真軟件的 1/10 到 1/20。更值得關注的是，其絕對尺度預測誤差從 300 左右降到 2.79，提升了兩個數量級。這意味著，AI 生成的椅子不再是“大約這么高”，而是精準的“就是 65 厘米高”。

PhysX-Omni 在仿真就緒場景生成與機器人策略學習等場景中表現出應用潛力，包括具身智能、物理仿真、游戲、影視等領域。相關論文以“PhysX-Omni: Unified Simulation-Ready Physical 3D Generation for Rigid, Deformable, and Articulated Objects”為題，發表在預印本網站 arXiv[1]。

讓 AI 學會物理常識：從“看得美”到“能交互”

如果我們想用 AI 生成一個箱子，大部分模型并不知道用多大的力去推它，在有風吹的情況下它會不會倒，或移動多少距離。現有 3D 模型生成類似于“真空中的球形雞”，盡管整體生成得好看，但與外界并無任何交互，常出現穿模、漂浮、關節亂轉等問題。

在過去的三維領域，剛體、可變形體和關節體通常各自研究。研究團隊發現，這三個子領域本質上可能是同一個問題，因此除了數字世界可用同一套代碼，物理世界背后的結構其實也有可能用一套代碼來表示。

這項研究相當于為AI提供了物理常識，將 3D 模型生成從生成得好看，轉變為能夠交互和好用。不僅能促進跨類型學習，還降低了開發成本和門檻。

以機器人疊衣服為例，衣服是個可變形物體，疊完后將它放到箱子里，是剛體；然后打開衣柜，衣柜則是關節體。當知道怎么去疊衣服，可能反過來能幫助做一些其他的任務。

（來源：arXiv）

強化學習之父理查德·薩頓（Rich Sutton）在經典文章《苦澀的教訓》（The Bitter Lesson）中提到，只要數據量足夠多，中間產物可能會自然地涌現出來，因此只需要定好最終目標。“我們最原初的設計哲學也受到了這種觀點的啟發，希望盡量實現端到端的學習。”劉子緯表示。

以往研究要么壓縮丟細節，要么用分割模塊引入錯誤。PhysX-Omni 使用了新的幾何表達方式，它將每個部件的三維網格沿Z軸切成一層層二維掩膜，基于經典的游程編碼，再將每個切片壓縮為文本串。

其模板 RLE 表示既保留了高分辨率的結構信息，又繞過了中間表征進行直接建模，從而減少了誤差累積。新編碼方式最直觀的變化表現在兩方面：一是高度保持 3D 細節；二是高效，即編碼同樣的信息，可比之前工作再少 1/4 到 1/5 的 tokens。

圖丨PhysXVerse 的統計與分布（來源：arXiv）

為了訓練該框架，研究人員構建了首個通用仿真就緒 3D 數據集 PhysXVerse。它從 PartVerse 的精細標注中篩選過濾，保留了 8,700 個以上高質量資產，覆蓋 2,900 多個室內外類別，從直升機、坦克、賽車到摩天大樓和玩具，部件數量從單個剛體延伸到 65 個零件的復雜鉸接系統。

每個資產在具有幾何網格之外，還通過人工校驗的方式將絕對尺寸、材質類型、功能語義、關節類型和運動范圍等物理標注補齊。

誤差驟降 100 倍，一張照片生成仿真級 3D 資產

但是，僅具有數據和模型還不夠，為進一步在開放環境中全面、靈活地評估生成與理解能力，研究團隊還提出了評測基準 PhysX-Bench，其涵蓋了幾何、絕對尺度、材料、可供性（物體可被如何操作）、運動學與描述六個關鍵屬性維度。

這套評測巧妙之處在于，并非依賴昂貴的真實標注，而是用仿真測物理，不僅避免了人工標注的主觀性，也更能更真實地反映資產在實際部署中的表現。

PhysXVerse 數據集結果顯示，PhysX-Omni 的 PSNR 為 21.52，Chamfer Distance 降至 2.95，F-score 達 91.28，幾何精度全面超越此前最優方法。更值得關注的是絕對尺度誤差：從 PhysXGen 的 309.31 驟降至 2.79，幾乎提升了兩個數量級。

“PhysX-Omni在絕對尺度誤差的表現有些出乎我們的意料。”劉子緯表示。這與研究團隊的兩個觀察密切相關。首先，研究人員發現此前很多數據天然帶幻覺，因此他們將數據進行了重新編排和清洗。其次，通過新編碼方式，它對絕對尺度的分辨率顯著提高，進而更精準地理解真實世界的物體尺寸。

（來源：arXiv）

此外，這可能也與大模型本身的潛能有關，通過激發讓它表現出來。這個觀察在近期 Meta 的相關研究中也進行了印證，其發現用一個視覺語言模型可以學到很多很強的 3D 能力，而不需要一個專門的 3D 專家模型。

在 PhysX-Bench 的開放場景評估中，PhysX-Omni 在材料、可供性、運動學和描述等維度都創造了最佳成績紀錄，表現出強泛化能力。

此外，研究人員也在大量的真實場景案例中進行了驗證，這類樣本大部分無法獲取大規模的 3D 標注，但可通過人工標注的方式制作少量標注數據，用于結果判別。多組對照驗證顯示，實測結果與仿真數據集得出的結論能夠相互佐證。

“當前該領域的發展階段，和大語言模型發展早期十分相似。早期研究者普遍依靠各類仿真數據、文本生成數據開展實驗，后續業界才逐步搭建起各類真實世界基準測試集。”劉子緯表示。這項研究也為后續相關研究提供新的啟發，尤其適用于三維物理仿真領域的評測工作。

團隊還驗證了 PhysX-Omni 在下游任務中的實際價值。由于這套資產針對目前市面上主流的仿真器完成了適配定制，因此其可將生成的資產一鍵導入到物理仿真器，用于機器人操作策略學習。在包括打開馬桶蓋、操作咖啡機、旋轉椅子、關閉柜門等接觸豐富的交互任務中，生成的資產在動態交互中表現出結構穩定和物理一致性，無需任何人工后處理。

此外，結合深度估計和圖像分割技術，PhysX-Omni 還能從單張場景照片出發，重建 3D 布局并自動填充仿真就緒資產，實現場景級別的物理仿真環境構建。這預示著，未來機器人訓練、具身智能研究或許可以不再耗費大量人力搭建虛擬場景，對整個仿真流程取而代之的正是一張實拍照片。

機器人訓練的新“燃料”：AI 開始批量生產物理世界

過去，行業內做具身智能/機器人訓練的三條主流技術路線是：仿真、人類數據與實體真機實操。而仿真方案之所以沒有真正“用起來”，正是因為物理仿真效果差和真實度不足。這項研究利用自研資產開展具身智能策略學習相關實驗，結果證實仿真能夠有效優化智能策略，驗證了仿真方案的實用價值。

從應用角度來看，該技術可能率先在游戲與影視工業（AR、VR）、交互內容類場景落地，它能夠與所有資產進行真實物理交互，并可縮短物理特效和互動場景的制作周期。

隨著技術的發展，它可能應用在具身智能領域，成為連接識別物體與操作物體的橋梁，讓AI真正理解和實現更真實的物理特性、精細程度，并能夠與物理世界交互。更長遠地看，如果可將物理仿真的精度進一步提升，該技術還可能在AI for Science領域替代部分高成本的實體科學實驗。

據了解，目前大曉機器人公司已將 PhysX-Omni 應用于其仿真平臺。此外，也有一些硅谷初創公司對這項技術表現出濃厚興趣。在接下來的研究階段中，研究團隊計劃繼續探索如何讓長尾數據高效學習，如何將物體級建模擴展到場景級建模，并讓物體擺放方式的關系更合理，以更接近實際應用。

參考資料：

1.https://arxiv.org/abs/2605.21572

注：封面/首圖由 AI 輔助生成

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.