henry 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
還在聊Sim2Real?現(xiàn)在機器人圈更火的是Real2Sim!
最近,英偉達GEAR聯(lián)合李飛飛團隊、佐治亞理工大學(xué)等機構(gòu)聯(lián)合發(fā)布全新Real2Sim系統(tǒng)——
SimFoundry
![]()
SimFoundry只需一段真實世界視頻,就能自動生成一個可以交互、訓(xùn)練、評測的機器人仿真環(huán)境。
而且可不光是3D場景重建這么簡單。
SimFoundry還能在保持物體功能和Affordance不變的前提下,自動更換物體、調(diào)整場景布局,甚至生成新的操作任務(wù)。也就是說,一段真實視頻,不再只能得到一個仿真場景,而是能夠自動擴展出幾乎無限的數(shù)據(jù)生成空間
由此,SimFoundry不僅可以在仿真里訓(xùn)練機器人,還能較為可靠地預(yù)測不同機器人策略在現(xiàn)實中的真實表現(xiàn)。
![]()
更進一步,在SimFoundry生成的數(shù)據(jù)上訓(xùn)練出的策略,還能夠零樣本部署到真實機器人,在多步操作、雙臂協(xié)作、帶關(guān)節(jié)物體操作等多個任務(wù)上完成真實世界遷移。
這是怎么做到的?
一段視頻,生成無限訓(xùn)練場景
SimFoundry 的核心貢獻,在于打通了場景生成、數(shù)據(jù)生成、策略評測和策略訓(xùn)練的整個Real-to-Sim閉環(huán)。
![]()
一直以來,機器人策略的訓(xùn)練一直高度依賴真實世界數(shù)據(jù),而真實機器人采集數(shù)據(jù)不僅昂貴、耗時,還很難規(guī)模化。
即便模型訓(xùn)練完成,真機測試同樣受到場景有限、測試成本高等因素的制約。
正因如此,研究人員開始將仿真(Simulation)作為訓(xùn)練和評估機器人策略的一種可擴展替代方案。
借助自動化數(shù)據(jù)生成技術(shù),可以以極低的人力成本合成大量多樣、高質(zhì)量的訓(xùn)練數(shù)據(jù),不斷提升機器人在真實世界中的泛化能力。
![]()
與此同時,越來越多研究也發(fā)現(xiàn),只要仿真環(huán)境足夠逼真,其評測結(jié)果與真實世界的機器人表現(xiàn)往往具有很強的一致性。
不過,新的問題又出現(xiàn)了。
雖然仿真能夠提供近乎無限的數(shù)據(jù),但搭建一個具備真實幾何、物理屬性和交互能力的仿真環(huán)境,本身仍然需要大量人工建模。
于是,近兩年Real-to-Sim逐漸成為具身智能領(lǐng)域的熱門方向。
簡單來說,Real-to-Sim希望利用3D重建和生成模型,將真實世界快速轉(zhuǎn)換成支持物理交互的仿真就緒(Sim-ready)環(huán)境,從而大幅降低人工搭建仿真場景的成本。
![]()
但問題在于,已有的Real-to-Sim方案往往只能解決其中一個環(huán)節(jié):有的擅長重建3D場景,卻無法生成訓(xùn)練數(shù)據(jù);
有的能夠進行策略評測,卻依賴大量人工配置,也難以擴展到豐富的場景和任務(wù)。
基于此,SimFoundry 的思路就是把場景構(gòu)建、數(shù)據(jù)生成、策略評測和策略訓(xùn)練串成了一條完整流水線。
整個系統(tǒng)主要完成三件事:
- 自動重建可交互、可仿真的數(shù)字孿生(Digital Twin);
- 自動擴展物體、場景和任務(wù)三個層面的數(shù)字表親(Digital Cousins),持續(xù)生成訓(xùn)練數(shù)據(jù);
- 利用這些仿真環(huán)境同時完成策略評測和策略訓(xùn)練,形成從真實世界到仿真、再回到真實世界的完整閉環(huán)。
(注:數(shù)字孿生(Digital Twin)是對真實場景的精確復(fù)刻;數(shù)字表親(Digital Cousins)則保持場景的功能和交互方式不變,但會對物體、布局或任務(wù)進行合理變化。)
為了實現(xiàn)這一目標(biāo),SimFoundry設(shè)計了一套三階段Pipeline。
三階段pipeline
整個SimFoundry的流程并不復(fù)雜,可以概括成三個階段:
Extraction(提取)→Generation(生成)→Augmentation(增強)
一句話來說,就是先理解真實世界,再搭建數(shù)字世界,最后批量創(chuàng)造新的數(shù)字世界
![]()
第一步:Extraction(提取)——理解真實場景。
系統(tǒng)輸入一段普通RGB視頻后,首先利用深度估計恢復(fù)三維點云,再通過視覺語言模型(VLM)和SAM 3等分割模型,將場景中的物體逐個識別、分割出來。
每提取一個物體,就利用圖像修復(fù)(Inpainting)將其從畫面中移除,繼續(xù)尋找下一個目標(biāo),直到完成整個場景解析。
第二步:Generation(生成)——搭建數(shù)字孿生。
對于提取出的每個物體,SimFoundry會利用2D-to-3D模型生成三維網(wǎng)格,并結(jié)合FoundationPose等模型恢復(fù)其真實位姿;對于抽屜、柜門等關(guān)節(jié)物體,還會自動推導(dǎo)關(guān)節(jié)結(jié)構(gòu)。
![]()
同時,系統(tǒng)進一步補充質(zhì)量、摩擦力等物理屬性,生成碰撞模型并修復(fù)穿模問題,最終導(dǎo)出可直接運行于IsaacLab等物理引擎中的仿真場景,完成Digital Twin(數(shù)字孿生)的構(gòu)建。
第三步:Augmentation(增強)——創(chuàng)造數(shù)字表親。
這是SimFoundry最核心的創(chuàng)新。
在數(shù)字孿生基礎(chǔ)上,系統(tǒng)進一步自動生成Digital Cousins(數(shù)字表親)。它主要從三個維度進行擴展:
一是改變物體外觀和幾何形態(tài),但保持功能不變(Object Cousins);
二是調(diào)整物體布局或加入新物體,生成新的場景(Scene Cousins);
三是根據(jù)場景中的物體及其Affordance,自動推導(dǎo)新的機器人操作任務(wù)(Task Cousins)。
換句話說,一段真實視頻,不僅能夠重建一個數(shù)字孿生,還能自動擴展出大量保持相同行為語義的新物體、新場景和新任務(wù),為機器人提供幾乎無限的訓(xùn)練數(shù)據(jù)。
實驗驗證
為了驗證SimFoundry是否真的能夠替代真實世界進行機器人訓(xùn)練和評估,研究在兩套機器人平臺、7類典型操作任務(wù)上進行了實驗,并分別驗證了Real-to-Sim策略評估和Sim-to-Real策略訓(xùn)練兩項核心能力。
首先是策略評估。
實驗結(jié)果顯示,SimFoundry中機器人的表現(xiàn)與真實世界高度一致,平均皮爾遜相關(guān)系數(shù)達到0.911,平均最大排名違例(MMRV)僅0.018,相比此前最先進的評測框架PolaRiS有明顯提升。
![]()
這意味著,研究人員可以在仿真中較為準(zhǔn)確地預(yù)測策略在真實機器人的表現(xiàn),而無需反復(fù)進行昂貴的實機測試。
更大的亮點來自論文提出的Digital Cousins。
研究發(fā)現(xiàn),相比僅使用數(shù)字孿生進行訓(xùn)練,引入Object、Scene和Task Cousins后,機器人在真實世界中的平均任務(wù)成功率分別提升17%、21%和40%。
![]()
同時,僅利用SimFoundry自動生成的數(shù)據(jù)訓(xùn)練出的策略,也能夠零樣本部署到真實機器人,在多個操作任務(wù)上取得接近滿分的成功率。
作者介紹
最后讓我們來簡單介紹一下這篇文章的作者們。
SimFoundry作者陣容相當(dāng)豪華,幾乎匯集了NVIDIA GEAR、佐治亞理工學(xué)院、斯坦福大學(xué)、UT Austin和多倫多大學(xué)等機構(gòu)的核心研究者。
![]()
第一作者Nadun Ranawaka Arachchige來自佐治亞理工學(xué)院,目前在NVIDIA GEAR實習(xí),師從徐丹飛;
Josiah Wong、Jiangyun Fan等人來自李飛飛團隊;Tianyuan Dai來自朱玉可課題組,此前同樣曾在李飛飛團隊學(xué)習(xí);
Masoud Moghani是NVIDIA GEAR與多倫多大學(xué)聯(lián)合培養(yǎng)博士;Hang Yin曾參與BEHAVIOR項目,現(xiàn)已加入OpenAI。
此外,作者名單還包括Jim Fan、李飛飛、徐丹飛、朱玉可、Ajay Mandlekar、Ruohan Zhang、Wenbowen等機器人領(lǐng)域知名研究者。
[1]https://arxiv.org/pdf/2606.28276v1
[2]https://research.nvidia.com/labs/gear/simfoundry/
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.