網易首頁 > 網易號 > 正文申請入駐

獨家｜北大董豪：「僅停留在數據層面的Scaling Law，教不出通用機器人」

2026-06-12 16:10:04　來源: AI科技評論

廣東舉報

分享至

「數據量×任務量」二維Scaling才是具身AGI正解。

作者丨齊鋮湧

編輯丨林覺民

近段時間，具身智能的模型技術迭代方向，節奏放緩，分歧不斷。

對此，北大副教授董豪（上緯啟元首席科學家）分享了一個新觀點：現在主流的模仿學習、強化學習、仿真數據各有硬傷，行業需要換套思路。在不久前的百度智能云的具身智能論壇上，董豪詳細分享了他的想法，董豪主張用二維橫向Scaling Law新思路，把世界模型、生成數據、人類示教這些熱門技術串成一條線，讓機器人任務越學越多的同時，實現數據越用越省。

董豪堅信，這才是家用和通用人形機器人能大規模落地的關鍵。

以下為董豪分享內容，經AI科技評論獨家獲取并做不改變原義的整理刪改：

模仿學習只能完成冷啟動，

單一示范數據存在天然缺陷

談及大模型行業共識的 Scaling Law，董豪將當前具身模型訓練劃分為兩大階段：預訓練依托模仿學習，后置迭代依靠強化學習，兩套方案各有顯著短板。

模仿學習優勢在于快速冷啟動，依托標準化人工示范數據，能快速賦予機器人基礎操作能力，邏輯與大語言模型訓練邏輯相通。但其致命短板在于訓練樣本全部為正確軌跡，完全缺失故障、失誤樣本分布。即便積累上萬條標準操作數據，機器人在真實場景執行出錯后，不具備自主調整、糾錯能力。

國內已有成熟落地探索，北京智源研究院基于 15 款異構雙臂機器人搭建大規模多模態數據集，訓練出可跨硬件通用的 VLA 視覺語言動作模型，成為模仿學習路線標桿工程。

仿真賽道同樣跑出階段性成果，上海人工智能實驗室推出 InternData-A1 純仿真合成數據集，無需真機采集，在多項實操任務中，訓練完成成功率甚至超過真機實拍數據。

強化學習補齊容錯短板，

“模仿 + 強化” 實現全自主連續作業

僅依靠模仿學習不足以支撐通用機器人落地，強化學習是行業確定性演進方向。

董豪重點解讀經典 Dagger 數據聚合框架，該思路早年已在自動駕駛領域驗證價值：純正常行駛數據會造成模型容錯能力缺失，必須補充故障場景樣本。機器人執行失誤后接入人工干預，將糾錯軌跡納入訓練集，持續提升真機環境任務穩定性。

董豪分享了實驗室最新落地成果：團隊已實現機器人全自主洗衣流程，設備可自主規劃移動路徑、開合洗衣機門，抓取衣物失敗后會像人類一樣主動重試，整套流程無需人工介入。

實踐證明，模仿學習打底、強化學習持續迭代的組合方案，能夠支撐機器人在固定空間完成高強度連續作業。

一維縮放邏輯走到盡頭，

橫向二維 Scaling Law 重構行業增長曲線

即便實現模仿 + 強化學習閉環，傳統一維 Scaling Law 依舊無法描繪通用具身智能的長期增長天花板。對此董豪提出核心創新觀點：橫向二維 Scaling Law，在原有數據量維度之外，新增任務數量坐標軸。

這套框架下，隨著數據集持續擴充，機器人全新任務初始完成率同步上漲，達成高成功率所需的樣本量持續下降。行業需要規避兩種低效增長曲線：數據增長與可掌握任務僅呈線性關系、邊際收益持續遞減。

理想技術曲線為 “高效紅線”—— 伴隨模型迭代、數據規模擴張，機器人可掌握的任務數量高速提升，實現 “越學越省”，這也是物理世界 AGI 的必經之路。近半年行業火熱的世界模型、Umi 等技術概念，底層目標全部服務于這條全新增長曲線；真機真實數據、仿真合成數據、硬件無關通用預訓練數據，所有技術創新都圍繞二維縮放邏輯落地。

多路徑數據增強落地

1 條真機數據生成 50 條等效樣本、人示教低成本轉機器人軌跡。董豪披露團隊最新生成式數據增強研究成果：依托世界模型與生成 AI，單條真機采集軌跡，可生成 50 條物體擺放、空間位置差異化的高逼真等效訓練數據，極大緩解真機數據采集成本高、樣本稀缺的行業痛點，大幅提升真實數據利用效率。

仿真體系的價值不止基礎動作訓練，更是家用機器人突破非標家電操作瓶頸的關鍵。

家用設備型號繁雜、操作邏輯差異大，若模型具備讀取說明書、理解設備操作邏輯的能力，將大幅拓寬落地邊界。室內導航、多物體空間關系推演等任務，可通過仿真批量生成海量訓練素材；仿真數據與真機數據雙向互補，持續拓寬機器人能力邊界。

當前前沿模型已可識別各類家電，接收 “燜米飯、榨橙汁” 自然語言指令后，自主匹配設備完成全套操作。在規模化數據采集層面，團隊探索普惠化低成本方案：通過穿戴式手持相機記錄人類操作視頻，直接轉化為機器人可訓練軌跡。同等預算下可獲取海量示范數據，持續優化二維縮放增長曲線，長期壓低機器人數據采集邊際成本。

行業統一底層邏輯：所有前沿技術，

都是為加速二維 Scaling 增長曲線

董豪也總結了整場分享核心結論：行業需要跳出傳統一維 Scaling Law 思維，以二維雙維度視角重構具身智能技術研發思路。

全新增長曲線的核心訴求，是在穩定任務成功率的前提下，依靠增量數據持續拓展機器人可執行任務邊界。當下市場熱議的世界模型、Umi、人類視頻預訓練等不同技術路線，看似方向分散，底層目標高度統一：加速二維高效增長曲線成型。

只有走完這條技術路徑，通用具身智能、家用服務機器人才具備規模化商業化落地基礎。

未經「AI科技評論」授權，嚴禁以任何方式在網頁、論壇、社區進行轉載！

公眾號轉載請先在「AI科技評論」后臺留言取得授權，轉載時需標注來源并插入本公眾號名片。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.