![]()
「數據量×任務量」二維Scaling才是具身AGI正解。
作者丨齊鋮湧
編輯丨林覺民
近段時間,具身智能的模型技術迭代方向,節奏放緩,分歧不斷。
對此,北大副教授董豪(上緯啟元首席科學家)分享了一個新觀點:現在主流的模仿學習、強化學習、仿真數據各有硬傷,行業需要換套思路。在不久前的百度智能云的具身智能論壇上,董豪詳細分享了他的想法,董豪主張用二維橫向Scaling Law新思路,把世界模型、生成數據、人類示教這些熱門技術串成一條線,讓機器人任務越學越多的同時,實現數據越用越省。
董豪堅信,這才是家用和通用人形機器人能大規模落地的關鍵。
以下為董豪分享內容,經AI科技評論獨家獲取并做不改變原義的整理刪改:
01
模仿學習只能完成冷啟動,
單一示范數據存在天然缺陷
談及大模型行業共識的 Scaling Law,董豪將當前具身模型訓練劃分為兩大階段:預訓練依托模仿學習,后置迭代依靠強化學習,兩套方案各有顯著短板。
![]()
模仿學習優勢在于快速冷啟動,依托標準化人工示范數據,能快速賦予機器人基礎操作能力,邏輯與大語言模型訓練邏輯相通。但其致命短板在于訓練樣本全部為正確軌跡,完全缺失故障、失誤樣本分布。即便積累上萬條標準操作數據,機器人在真實場景執行出錯后,不具備自主調整、糾錯能力。
![]()
國內已有成熟落地探索,北京智源研究院基于 15 款異構雙臂機器人搭建大規模多模態數據集,訓練出可跨硬件通用的 VLA 視覺語言動作模型,成為模仿學習路線標桿工程。
仿真賽道同樣跑出階段性成果,上海人工智能實驗室推出 InternData-A1 純仿真合成數據集,無需真機采集,在多項實操任務中,訓練完成成功率甚至超過真機實拍數據。
02
強化學習補齊容錯短板,
“模仿 + 強化” 實現全自主連續作業
僅依靠模仿學習不足以支撐通用機器人落地,強化學習是行業確定性演進方向。
董豪重點解讀經典 Dagger 數據聚合框架,該思路早年已在自動駕駛領域驗證價值:純正常行駛數據會造成模型容錯能力缺失,必須補充故障場景樣本。機器人執行失誤后接入人工干預,將糾錯軌跡納入訓練集,持續提升真機環境任務穩定性。
董豪分享了實驗室最新落地成果:團隊已實現機器人全自主洗衣流程,設備可自主規劃移動路徑、開合洗衣機門,抓取衣物失敗后會像人類一樣主動重試,整套流程無需人工介入。
實踐證明,模仿學習打底、強化學習持續迭代的組合方案,能夠支撐機器人在固定空間完成高強度連續作業。
![]()
![]()
03
一維縮放邏輯走到盡頭,
橫向二維 Scaling Law 重構行業增長曲線
即便實現模仿 + 強化學習閉環,傳統一維 Scaling Law 依舊無法描繪通用具身智能的長期增長天花板。對此董豪提出核心創新觀點:橫向二維 Scaling Law,在原有數據量維度之外,新增任務數量坐標軸。
這套框架下,隨著數據集持續擴充,機器人全新任務初始完成率同步上漲,達成高成功率所需的樣本量持續下降。行業需要規避兩種低效增長曲線:數據增長與可掌握任務僅呈線性關系、邊際收益持續遞減。
理想技術曲線為 “高效紅線”—— 伴隨模型迭代、數據規模擴張,機器人可掌握的任務數量高速提升,實現 “越學越省”,這也是物理世界 AGI 的必經之路。近半年行業火熱的世界模型、Umi 等技術概念,底層目標全部服務于這條全新增長曲線;真機真實數據、仿真合成數據、硬件無關通用預訓練數據,所有技術創新都圍繞二維縮放邏輯落地。
![]()
04
多路徑數據增強落地
1 條真機數據生成 50 條等效樣本、人示教低成本轉機器人軌跡。董豪披露團隊最新生成式數據增強研究成果:依托世界模型與生成 AI,單條真機采集軌跡,可生成 50 條物體擺放、空間位置差異化的高逼真等效訓練數據,極大緩解真機數據采集成本高、樣本稀缺的行業痛點,大幅提升真實數據利用效率。
仿真體系的價值不止基礎動作訓練,更是家用機器人突破非標家電操作瓶頸的關鍵。
家用設備型號繁雜、操作邏輯差異大,若模型具備讀取說明書、理解設備操作邏輯的能力,將大幅拓寬落地邊界。室內導航、多物體空間關系推演等任務,可通過仿真批量生成海量訓練素材;仿真數據與真機數據雙向互補,持續拓寬機器人能力邊界。
當前前沿模型已可識別各類家電,接收 “燜米飯、榨橙汁” 自然語言指令后,自主匹配設備完成全套操作。在規模化數據采集層面,團隊探索普惠化低成本方案:通過穿戴式手持相機記錄人類操作視頻,直接轉化為機器人可訓練軌跡。同等預算下可獲取海量示范數據,持續優化二維縮放增長曲線,長期壓低機器人數據采集邊際成本。
![]()
05
行業統一底層邏輯:所有前沿技術,
都是為加速二維 Scaling 增長曲線
董豪也總結了整場分享核心結論:行業需要跳出傳統一維 Scaling Law 思維,以二維雙維度視角重構具身智能技術研發思路。
全新增長曲線的核心訴求,是在穩定任務成功率的前提下,依靠增量數據持續拓展機器人可執行任務邊界。當下市場熱議的世界模型、Umi、人類視頻預訓練等不同技術路線,看似方向分散,底層目標高度統一:加速二維高效增長曲線成型。
只有走完這條技術路徑,通用具身智能、家用服務機器人才具備規模化商業化落地基礎。
未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!
公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.