![]()
來源:獵云網(wǎng)
通用機器人的終極目標是在開放世界中自主完成復雜任務,這要求機器人不僅能“看見”世界,更能“理解”并與世界“交互”。
大曉機器人與南洋理工大學聯(lián)合發(fā)布的 PhysX-Omni,其作為 ACE 研發(fā)范式下的最新成果,為機器人構(gòu)建物理世界的全局認知與交互能力提供了重要潛力。
研究團隊從機器人的長期發(fā)展需求出發(fā),確立了 “從物體級生成到場景級世界建模” 的遞進式研究路線,在實現(xiàn)高質(zhì)量物理 3D 資產(chǎn)批量生成的基礎(chǔ)上,進一步探索了完整仿真場景的自動生成技術(shù)。
這一能力讓機器人能夠在虛擬世界中預演各種真實場景的交互任務,不斷積累物理經(jīng)驗,逐步形成類人的物理直覺。
未來,PhysX-Omni 或?qū)⒊蔀闄C器人最強大腦的 “世界模擬器”重要一環(huán),助力具身智能向通用人工智能邁出關(guān)鍵一步。
構(gòu)筑全球首個統(tǒng)一物理 3D 生成框架
全球首個統(tǒng)一物理 3D 生成框架 PhysX-Omni 的發(fā)布,首次實現(xiàn)剛體、可形變物體與關(guān)節(jié)物體的一體化建模,能同時生成絕對尺度、材料屬性、運動學參數(shù)、交互能力等核心物理信息,讓 AI 生成的 3D 模型真正做到 “生成即可仿真”。
該框架的核心突破在于首創(chuàng)面向視覺語言模型的模板化 RLE 幾何表征.受經(jīng)典二維游程編碼啟發(fā),先將 3D 資產(chǎn)體素化并按部件層級拆分,再沿 Z 軸切分為二維二值掩碼進行緊湊編碼;同時引入模板層概念,讓結(jié)構(gòu)相似的切片共享基礎(chǔ)模板、僅記錄殘差變化,既保留了精細幾何信息,又大幅壓縮了 token 數(shù)量,從而避免了引入分割步驟帶來的誤差。
PhysX-Omni 徹底打破了傳統(tǒng) 3D AIGC“重外觀、輕物理” 的行業(yè)瓶頸。此前絕大多數(shù) 3D 生成方法僅能輸出靜態(tài)幾何與視覺效果,無法還原真實世界的物理屬性與運動規(guī)律,生成的模型一進入仿真場景就會出現(xiàn)穿模、尺寸錯亂、關(guān)節(jié)失效等問題,完全無法支撐物理交互與機器人訓練需求。
構(gòu)建首個通用仿真就緒物理 3D 數(shù)據(jù)集 PhysXVerse
PhysXVerse 是全球首個通用仿真就緒物理 3D 數(shù)據(jù)集,徹底解決了物理 AI 與具身智能領(lǐng)域長期面臨的高質(zhì)量物理 3D 數(shù)據(jù)稀缺難題。此前行業(yè)內(nèi)的 3D 數(shù)據(jù)集大多僅包含幾何結(jié)構(gòu)與外觀信息,缺乏真實物理屬性標注,導致訓練出的模型生成的資產(chǎn)無法直接用于物理仿真,嚴重制約了機器人交互與策略學習的發(fā)展。
該數(shù)據(jù)集基于 PartVerse 經(jīng)過人類驗證的部件分割結(jié)果,通過人在環(huán)的精細化物理標注流程構(gòu)建而成,最終包含8.7K+高質(zhì)量仿真就緒 3D 資產(chǎn),覆蓋2.9K+類別,全面涵蓋室內(nèi)家具、無人機、機器人、車輛以及大型場景組件等多種復雜對象。
與現(xiàn)有數(shù)據(jù)集相比,PhysXVerse 不僅保留了精細的幾何與視覺信息,更完整標注了絕對尺度、材料參數(shù)、運動學結(jié)構(gòu)與交互可供性等核心物理屬性,為物理 3D 生成模型的訓練提供了標準化的高質(zhì)量數(shù)據(jù)基礎(chǔ),加速了 3D 生成從 “視覺可用” 向 “物理可用” 的跨越。
打造首個物理 3D 生成基準評測集 PhysX-Bench
PhysX-Bench 是全球首個物理 3D 生成統(tǒng)一基準評測集,終結(jié)了物理 3D 生成領(lǐng)域長期缺乏標準化、可量化評測體系的行業(yè)困境。
該評測集基于開源視覺語言模型 Qwen3.5 與物理仿真引擎構(gòu)建,創(chuàng)新性地采用無真值評測模式,通過渲染圖像與仿真視頻完成評估,更貼近人類感知與機器人應用需求。它從幾何結(jié)構(gòu)、絕對尺度、材料屬性、交互可供性、運動學一致性、語義描述六大核心維度建立全面評價體系,通過自由落體、水中下落等物理實驗間接驗證材料參數(shù),通過運動視頻分析關(guān)節(jié)運動合理性。
PhysX-Bench 為不同物理 3D 生成方法提供了公平的橫向?qū)Ρ绕脚_,能夠精準量化生成資產(chǎn)的物理真實性與仿真可用性,為物理 AI 與具身智能技術(shù)的迭代升級提供了統(tǒng)一的評判標尺。
PhysX-Omni 顯著超越現(xiàn)有方法,實現(xiàn)全面性能突破
研究團隊將 PhysX-Omni 與 PhysXGen、Articulate-Anything、MonoArt 以及 PhysX-Anything 等最新 simulation-ready 3D generation 方法進行了系統(tǒng)對比,并在 PhysXVerse 與 PhysX-Mobility 數(shù)據(jù)集上進行了大量實驗。結(jié)果表明,PhysX-Omni 在幾乎所有幾何與物理屬性指標上都取得了最佳性能,展現(xiàn)出了統(tǒng)一 simulation-ready physical generation framework 的顯著優(yōu)勢。
PhysX-Omni 在物理屬性預測上實現(xiàn)了大幅提升。特別是在 Absolute Scale 評估中,其誤差相比 PhysXGen 與 PhysX-Anything 降低了兩個數(shù)量級,說明模型對真實世界尺寸與物理先驗具備更強理解能力。在 Material、Affordance、Description 以及 Kinematics 等維度上,PhysX-Omni 也均取得了最優(yōu)結(jié)果。其中,運動學(Kinematics)提升尤為顯著,證明該框架能夠更加準確地推理關(guān)節(jié)結(jié)構(gòu)、運動類型以及運動約束,從而生成具備真實物理行為的 articulated assets。
在PhysX-Bench 真實場景評測中,其在復雜類別與野外挑戰(zhàn)案例中表現(xiàn)出更強魯棒性。落地驗證表明,PhysX-Omni 生成的 3D 資產(chǎn)可直接部署至物理模擬器,支撐機器人開關(guān)柜門、操作咖啡機等交互任務與策略學習,同時具備場景級仿真生成能力,為具身智能規(guī)模化訓練奠定了基礎(chǔ)。
創(chuàng)造具身智能的世界基建,為通用物理世界建模鋪平道路
PhysX-Omni 通過統(tǒng)一物理 3D 生成技術(shù),實現(xiàn)了從文本描述到可直接仿真的物理資產(chǎn)的端到端生成,為具身智能提供了規(guī)模化、低成本的訓練數(shù)據(jù)解決方案。
PhysX-Omni 可批量生成具備真實物理屬性的各類物體與機器人模型,無需人工標注與二次調(diào)試,大幅降低訓練數(shù)據(jù)的獲取成本。其生成的資產(chǎn)物理參數(shù)與真實世界高度一致,有效提升了機器人策略在真實場景中的泛化能力。
除單個物體外,PhysX-Omni 支持從 2D 圖像或文本描述生成完整的仿真就緒場景,可快速搭建家居、工業(yè)、辦公等多樣化交互環(huán)境,滿足機器人導航、操作、協(xié)作等復雜任務的訓練需求。
生成的 3D 資產(chǎn)可直接導入主流物理模擬器,支撐機器人開關(guān)柜門、操作咖啡機等真實交互任務的訓練與驗證,顯著縮短了具身智能系統(tǒng)從研發(fā)到落地的周期。
在訓練環(huán)境與世界建模層面,該團隊進一步突破了單一物體生成的局限,與現(xiàn)有方法組合使其具備場景級仿真就緒生成能力。通過3D布局與可交互物體結(jié)合來構(gòu)建符合真實物理規(guī)律的完整室內(nèi)外場景,為機器人導航、多智能體協(xié)作、復雜環(huán)境交互等高階任務提供了多樣化的訓練環(huán)境,同時也為具身智能構(gòu)建對物理世界的全局認知、實現(xiàn)通用世界建模奠定了重要基礎(chǔ)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.