數據采集與治理已經成為制約具身智能產業發展的瓶頸。相比大語言模型訓練能使用萬億級別數據,具身智能所需的數據需要從真實物理環境采集,面臨采集難、采集貴、數據可用性低和難以跨本體遷移等問題。建立高效可復用的數據采集機制、開放共建高質量的數據集,已經成為產業的當務之急。
近日,自變量機器人開源 XRZero-G0 ,論文發布當周即沖上alphaXiv趨勢熱榜前十,引發行業廣泛關注。這是一套軟硬一體的全身無本體數據采集與訓練系統,它通過在硬件層添加頭部視角,在軟件層多視角交叉約束、添加限位和真機成功率檢測,搭建起一套科學高效的數據采集和治理體系。
不僅如此,自變量還構建并開放了2000多小時、覆蓋3000個任務的多模態全身無本體數據集 G0-Dataset ,并通過實驗證實:以10:1比例混合無本體數據:真機數據,即可達到同等規模純真機數據的效果。用這些數據訓練的模型,擺脫了對固定本體姿態、特定本體型號的過擬合,具備出色的零樣本遷移能力。
這也是國內首個大規模跑通“全身無本體采集→自動質檢→混合訓練→真機評測”全閉環的工作,搭建起一條規模化采集具身數據、形成迭代飛輪的可行之路。
![]()
XRZero-G0 整合無本體數據采集、閉環質檢和數據配比方案
軟硬一體保證數據高可用,有效率提升至85%以上
XRZero-G0 首先在硬件上添加了頭部攝像頭,將數據與腕部的兩個視角嚴格對齊。同樣的采集數據量,訓練模型時的效率更高、混合收益更穩定。在軟件上,XRZero-G0則將對數據質量的管控,引入了數據采集階段,建立起三層遞進的自動質檢和篩選機制,而非等到訓練時再優化:
1、在觀測層,利用多個視角、多個時間的數據反復交叉驗證,防止視覺與運動的誤差不斷放大。
2、在動力學層,將外部動作數據翻譯成目標機器人自己能做的動作,避免機器人做動作時碰撞自己、超出關節限位,或是超出電機力矩。讓數據篩選從“定性”變成100%可驗證的步驟。
3、在策略層,用真機開放回環執行任務的成功率,來作為數據是否可用的最終判別依據。
這套方法論將數據治理從“采集端的工藝優化”延伸到“訓練端的分布對齊”,將入庫數據的有效率提升到85%以上,使得無本體數據也能達到與真機數據相當的可信和可執行水平。未來,它將成為以全身無本體數據為基礎的預訓練新范式。
發明“真機:無本體”數據“黃金配比”,數據成本降低至1/20
在具身智能領域,普遍會將真機數據與無本體數據混合,喂給模型訓練。這能同時解決“真機數據少、采集昂貴”和“無本體數據泛化性差”的問題。但兩者該以什么比例混合,過去一直沒有科學的定論。自變量通過在后訓練階段進行對照實驗,得出了一個可復現的科學配比:
10份無本體數據 + 1份真機數據的效果 = 同等規模的純真機數據
簡單來說,無本體數據能讓模型見多識廣、學會常識和動作規劃;真機數據則能幫模型“查漏補缺”電機延遲、本體差異、摩擦力這些物理信息。兩者結合,能將獲取訓練所需數據的成本降低到原有的1/20。
![]()
數據配比方案效果實測
不僅如此,自變量還將訓練出的模型效果做了真機試驗。自變量發現,相比于真機純遙操數據,這種“混合配方”在兩方面取得了更好的效果:首先是擺脫了對固定本體姿態的過擬合,能適應各種工作臺角度、站位和視角,不依賴于特定采集環境。其次是具備了跨本體的零樣本遷移能力,可以在完全沒有參與采集的機器人本體上零樣本部署,無需針對性微調。
這些真機實驗證明:自變量構建的這一整套數據采集和治理方法,以及將真機和無本體數據混合用于訓練的方式,能夠支撐具身模型訓練走向規模化,并非“權宜之計”,而是科學的系統化的路徑。
開放首批無本體數據集,構建具身行業數據基礎設施
真實物理環境的數據已經成為具身智能模型發展的“珍貴養料”。很多具身智能企業和三方公司也紛紛開始自建數據采集流程,摸索可行的路徑。自變量作為在具身數據采集方面的先行者,決定打破數據孤島、促進整個行業的數據基建:將 XRZero-G0 的核心成果全面開源。
目前,自變量采集構建的首批無本體數據集已經在 Huggingface 平臺上線,方便全球開發者開箱即用。相關的技術報告也發布在 arXiv 等平臺,涵蓋硬件搭建、自動化質檢流水線和混合數據配比后訓練策略等方面,讓具身智能產業能夠復現使用。相關論文和數據集的發表,也在arXiv相關論壇alphaXiv和國內社區引發廣泛的討論和關注。
未來,自變量期待與全球科研力量并肩同行,徹底告別“盲采盲訓”的摸索階段,共同見證通用機器人融入物理世界的黎明到來。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.