4月30日,由智元(AGIBOT)主辦、在全球機器人領域頂級學術盛會ICRA 2026框架下舉辦的AGIBOT WORLD CHALLENGE @ICRA 2026世界模型賽道中,來自中科院自動化所模式識別實驗室與高德地圖CV Lab的聯合團隊NeoVerse-ABot以0.829的成績奪得全球冠軍。在未來圖靈參加賽后群訪中,團隊核心成員李銳智、李俊彥透露了一個反直覺的發(fā)現:在機器人世界模型的訓練中,“失敗數據”比成功數據更具教學價值。
失敗軌跡是“黃金監(jiān)督信號”
“對于做world model來講,失敗的軌跡反而是對我們來講非常重要,它不是一種噪聲,它是一種非常重要的訓練的監(jiān)督。”李俊彥在采訪中強調。
他舉例說明,在遙操數據集中,大部分操作都是成功的,偶爾會出現夾爪沒夾住物體、物體中途掉落、或者第一遍沒夾起來需要補夾一次的情況。“這個世界模型并不會自然而然地形成一種‘我的任務會失敗’的認識。”李俊彥說,“我們需要填很多的failure case來告訴模型,不是說你的夾爪一伸到物體附近,物體就會自動吸附進去。”
團隊從數據集中專門挖掘了這些失敗片段,通過調大它們的訓練權重,讓模型學會“夾爪有可能夾不住”、“東西會往下掉”這些物理世界中真實存在的可能性。
![]()
動作對齊比畫面漂亮更重要
傳統視頻生成模型追求畫面的逼真度和流暢性,但李俊彥指出,這對具身智能可能反而是有害的。“如果我們繼續(xù)沿用純視頻生成的評價方式,視頻可能會生成得非常漂亮,但是它不受機器人給出的動作的控制,甚至會在操作過程當中自動腦補成功的結果。”
為此,團隊搭建了一套離線內外參優(yōu)化管線。李銳智解釋:“機器人組裝過程中,相機支架的安裝誤差、相機本身的畸變參數都會影響動作在圖像中的投影位置。”通過聯合優(yōu)化這些參數,團隊在比賽的“動作跟隨”小分上排名第一。
14B參數模型,訓練成本貫穿全流程
談及世界模型的訓練成本,李俊彥表示這并非集中在某一個環(huán)節(jié),而是貫穿數據準備、模型訓練和后期評估的全過程。
“我們參賽的模型是14B的參數量,對顯存的容量和整體算力集群的要求非常高。”他透露,比賽最終評測分辨率為640×480,對于視頻生成模型已是相當高的指標。此外,大規(guī)模的分布式訓練不可避免面臨節(jié)點故障風險,需要配備斷點恢復機制。
訓練后的評估同樣耗時。“面向具身的世界模型評估,不是一個完全依賴已有視覺指標的方案。”李俊彥說,團隊需要大量人力來挖掘失敗樣本,尋找能夠推動分數上漲的改進點。
![]()
世界模型的下一個目標:從“預測視頻”到“因果模擬器”
被問及通往具身通用智能的下一個科學問題時,李銳智提出,團隊希望讓世界模型從“預測一個可能的視頻”進一步走向“對機器人決策可用的因果模擬器”。
“具身智能真正需要的是,機器人面對新的場景、新的物體或新的動作時,能否可靠地預測不同動作的后果和風險,判斷哪些動作可能成功、哪些具有危險性。”他解釋,這要求模型具備反事實推理和長期狀態(tài)記憶的能力。
團隊下一步將聚焦三個方向:提升在corner case和新場景下的泛化預測能力;讓模型不僅能生成,還能輸出用于規(guī)劃的狀態(tài)評估和風險評估;將世界模型接入機器人的閉環(huán)決策,實現自我提升。
亞軍團隊的物理機理探索
世界模型賽道亞軍、來自中科院工業(yè)人工智能研究所的物理智能團隊(PAI@IAII)同樣強調了物理規(guī)律的重要性。團隊成員黃雨行指出,當前世界模型大多依賴數據驅動的統計學習,缺乏對場景中物體幾何關系和物理規(guī)律的建模,“這會導致生成的未來推演違反物理常識,比如倒水時水杯里的水位沒有變化”。
![]()
該團隊導師徐凱研究員在書面回復中進一步表示,純數據驅動的“黑盒”模型難以支撐工業(yè)級交互。“我們不能僅靠增加數據量來‘撞大運’式地撞出物理規(guī)律,必須等待‘機理建模與數據驅動’深度融合技術的成熟。”
本屆賽事由智元(AGIBOT)主辦,在ICRA 2026體系下展開,共吸引來自全球27個國家及地區(qū)的526支隊伍報名。世界模型賽道采用智元自研評測基準EWMBench,引入真機數據集AGIBOT World作為官方數據集,要求模型在真實機器人任務導向的基準上進行驗證。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.