告別手動資產(chǎn)搭建，PhysX-Omni 生成的 3D 模型直接部署模擬器用于具身智能訓練

2026-05-27 22:24:12　來源: 獵云網(wǎng)

北京舉報

分享至

來源：獵云網(wǎng)

通用機器人的終極目標是在開放世界中自主完成復雜任務，這要求機器人不僅能“看見”世界，更能“理解”并與世界“交互”。

大曉機器人與南洋理工大學聯(lián)合發(fā)布的 PhysX-Omni，其作為 ACE 研發(fā)范式下的最新成果，為機器人構(gòu)建物理世界的全局認知與交互能力提供了重要潛力。

研究團隊從機器人的長期發(fā)展需求出發(fā)，確立了 “從物體級生成到場景級世界建模” 的遞進式研究路線，在實現(xiàn)高質(zhì)量物理 3D 資產(chǎn)批量生成的基礎(chǔ)上，進一步探索了完整仿真場景的自動生成技術(shù)。

這一能力讓機器人能夠在虛擬世界中預演各種真實場景的交互任務，不斷積累物理經(jīng)驗，逐步形成類人的物理直覺。

未來，PhysX-Omni 或?qū)⒊蔀闄C器人最強大腦的 “世界模擬器”重要一環(huán)，助力具身智能向通用人工智能邁出關(guān)鍵一步。

構(gòu)筑全球首個統(tǒng)一物理 3D 生成框架

全球首個統(tǒng)一物理 3D 生成框架 PhysX-Omni 的發(fā)布，首次實現(xiàn)剛體、可形變物體與關(guān)節(jié)物體的一體化建模，能同時生成絕對尺度、材料屬性、運動學參數(shù)、交互能力等核心物理信息，讓 AI 生成的 3D 模型真正做到 “生成即可仿真”。

該框架的核心突破在于首創(chuàng)面向視覺語言模型的模板化 RLE 幾何表征.受經(jīng)典二維游程編碼啟發(fā)，先將 3D 資產(chǎn)體素化并按部件層級拆分，再沿 Z 軸切分為二維二值掩碼進行緊湊編碼；同時引入模板層概念，讓結(jié)構(gòu)相似的切片共享基礎(chǔ)模板、僅記錄殘差變化，既保留了精細幾何信息，又大幅壓縮了 token 數(shù)量，從而避免了引入分割步驟帶來的誤差。

PhysX-Omni 徹底打破了傳統(tǒng) 3D AIGC“重外觀、輕物理” 的行業(yè)瓶頸。此前絕大多數(shù) 3D 生成方法僅能輸出靜態(tài)幾何與視覺效果，無法還原真實世界的物理屬性與運動規(guī)律，生成的模型一進入仿真場景就會出現(xiàn)穿模、尺寸錯亂、關(guān)節(jié)失效等問題，完全無法支撐物理交互與機器人訓練需求。

構(gòu)建首個通用仿真就緒物理 3D 數(shù)據(jù)集 PhysXVerse

PhysXVerse 是全球首個通用仿真就緒物理 3D 數(shù)據(jù)集，徹底解決了物理 AI 與具身智能領(lǐng)域長期面臨的高質(zhì)量物理 3D 數(shù)據(jù)稀缺難題。此前行業(yè)內(nèi)的 3D 數(shù)據(jù)集大多僅包含幾何結(jié)構(gòu)與外觀信息，缺乏真實物理屬性標注，導致訓練出的模型生成的資產(chǎn)無法直接用于物理仿真，嚴重制約了機器人交互與策略學習的發(fā)展。

該數(shù)據(jù)集基于 PartVerse 經(jīng)過人類驗證的部件分割結(jié)果，通過人在環(huán)的精細化物理標注流程構(gòu)建而成，最終包含8.7K+高質(zhì)量仿真就緒 3D 資產(chǎn)，覆蓋2.9K+類別，全面涵蓋室內(nèi)家具、無人機、機器人、車輛以及大型場景組件等多種復雜對象。

與現(xiàn)有數(shù)據(jù)集相比，PhysXVerse 不僅保留了精細的幾何與視覺信息，更完整標注了絕對尺度、材料參數(shù)、運動學結(jié)構(gòu)與交互可供性等核心物理屬性，為物理 3D 生成模型的訓練提供了標準化的高質(zhì)量數(shù)據(jù)基礎(chǔ)，加速了 3D 生成從 “視覺可用” 向 “物理可用” 的跨越。

打造首個物理 3D 生成基準評測集 PhysX-Bench

PhysX-Bench 是全球首個物理 3D 生成統(tǒng)一基準評測集，終結(jié)了物理 3D 生成領(lǐng)域長期缺乏標準化、可量化評測體系的行業(yè)困境。

該評測集基于開源視覺語言模型 Qwen3.5 與物理仿真引擎構(gòu)建，創(chuàng)新性地采用無真值評測模式，通過渲染圖像與仿真視頻完成評估，更貼近人類感知與機器人應用需求。它從幾何結(jié)構(gòu)、絕對尺度、材料屬性、交互可供性、運動學一致性、語義描述六大核心維度建立全面評價體系，通過自由落體、水中下落等物理實驗間接驗證材料參數(shù)，通過運動視頻分析關(guān)節(jié)運動合理性。

PhysX-Bench 為不同物理 3D 生成方法提供了公平的橫向?qū)Ρ绕脚_，能夠精準量化生成資產(chǎn)的物理真實性與仿真可用性，為物理 AI 與具身智能技術(shù)的迭代升級提供了統(tǒng)一的評判標尺。

PhysX-Omni 顯著超越現(xiàn)有方法，實現(xiàn)全面性能突破

研究團隊將 PhysX-Omni 與 PhysXGen、Articulate-Anything、MonoArt 以及 PhysX-Anything 等最新 simulation-ready 3D generation 方法進行了系統(tǒng)對比，并在 PhysXVerse 與 PhysX-Mobility 數(shù)據(jù)集上進行了大量實驗。結(jié)果表明，PhysX-Omni 在幾乎所有幾何與物理屬性指標上都取得了最佳性能，展現(xiàn)出了統(tǒng)一 simulation-ready physical generation framework 的顯著優(yōu)勢。

PhysX-Omni 在物理屬性預測上實現(xiàn)了大幅提升。特別是在 Absolute Scale 評估中，其誤差相比 PhysXGen 與 PhysX-Anything 降低了兩個數(shù)量級，說明模型對真實世界尺寸與物理先驗具備更強理解能力。在 Material、Affordance、Description 以及 Kinematics 等維度上，PhysX-Omni 也均取得了最優(yōu)結(jié)果。其中，運動學（Kinematics）提升尤為顯著，證明該框架能夠更加準確地推理關(guān)節(jié)結(jié)構(gòu)、運動類型以及運動約束，從而生成具備真實物理行為的 articulated assets。

在PhysX-Bench 真實場景評測中，其在復雜類別與野外挑戰(zhàn)案例中表現(xiàn)出更強魯棒性。落地驗證表明，PhysX-Omni 生成的 3D 資產(chǎn)可直接部署至物理模擬器，支撐機器人開關(guān)柜門、操作咖啡機等交互任務與策略學習，同時具備場景級仿真生成能力，為具身智能規(guī)模化訓練奠定了基礎(chǔ)。

創(chuàng)造具身智能的世界基建，為通用物理世界建模鋪平道路

PhysX-Omni 通過統(tǒng)一物理 3D 生成技術(shù)，實現(xiàn)了從文本描述到可直接仿真的物理資產(chǎn)的端到端生成，為具身智能提供了規(guī)模化、低成本的訓練數(shù)據(jù)解決方案。

PhysX-Omni 可批量生成具備真實物理屬性的各類物體與機器人模型，無需人工標注與二次調(diào)試，大幅降低訓練數(shù)據(jù)的獲取成本。其生成的資產(chǎn)物理參數(shù)與真實世界高度一致，有效提升了機器人策略在真實場景中的泛化能力。

除單個物體外，PhysX-Omni 支持從 2D 圖像或文本描述生成完整的仿真就緒場景，可快速搭建家居、工業(yè)、辦公等多樣化交互環(huán)境，滿足機器人導航、操作、協(xié)作等復雜任務的訓練需求。

生成的 3D 資產(chǎn)可直接導入主流物理模擬器，支撐機器人開關(guān)柜門、操作咖啡機等真實交互任務的訓練與驗證，顯著縮短了具身智能系統(tǒng)從研發(fā)到落地的周期。

在訓練環(huán)境與世界建模層面，該團隊進一步突破了單一物體生成的局限，與現(xiàn)有方法組合使其具備場景級仿真就緒生成能力。通過3D布局與可交互物體結(jié)合來構(gòu)建符合真實物理規(guī)律的完整室內(nèi)外場景，為機器人導航、多智能體協(xié)作、復雜環(huán)境交互等高階任務提供了多樣化的訓練環(huán)境，同時也為具身智能構(gòu)建對物理世界的全局認知、實現(xiàn)通用世界建模奠定了重要基礎(chǔ)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.