網易首頁 > 網易號 > 正文申請入駐

Sci Robot最新封面：豐田研究院等重磅發布，新任務學習效率提5倍

2026-04-17 20:28:07　來源: 機器人大講堂

安徽舉報

分享至

從科幻電影中的全能管家，到現實工業中的自動化臂膀，我們對“通用機器人”的想象與探索從未停止。近年來，隨著人工智能領域大型語言模型（LLM）和視覺基礎模型的巨大成功，一個自然而然的問題擺在了機器人學界面前：我們能否為機器人也打造一個“基礎模型”，讓它像人類一樣，能夠理解多樣的指令，并靈活完成各種從未見過的任務？

這個問題的答案，或許就藏在剛剛登上國際頂級期刊《科學·機器人學》（Science Robotics）最新一期封面的研究中。來自豐田研究院（TRI）等機構的研究團隊，通過一項重磅實驗為我們揭示了大型行為模型（Large Behavior Models, LBMs）的真實能力。這項研究并非停留在理論或簡單的模擬，而是基于約1700小時的機器人演示數據，在模擬和真實世界中進行了超過47000次的嚴苛測試，最終為通往通用機器人的道路提供了堅實的經驗證據和洞見。

01.

“大海撈針”式的預訓練：從海量數據中學習通用技能

要讓機器人變得“通用”，傳統的“專才”培養模式顯然行不通。過去，研究者們通常會為一個特定任務（比如“拿起蘋果”）訓練一個專門的模型。這種模型在特定場景下表現優異，但一旦任務或環境稍有變化（比如蘋果換成梨，或者光線變暗），它就可能“罷工”。這種脆弱性，是通往通用機器人之路的最大障礙之一。

受AI領域“大力出奇跡”的啟發，研究者們提出了大型行為模型（LBM）這一新范式。其核心思想很簡單：不再為每個任務單獨訓練模型，而是用一個龐大而統一的模型，去學習成百上千種不同任務的解決方式。就像人類通過觀察和實踐學會各種技能一樣，LBM的目標是從海量、多樣化的數據中，自主提煉出關于物理世界和機器人操作的通用知識。

為了實現這一目標，研究團隊構建了一個名為“Ramen”的龐大預訓練數據集。這個數據集包含了約1700小時的機器人操作演示，涵蓋了超過500個內部收集的高多樣性任務以及大量公開的機器人數據。這些任務五花八門，從簡單的“把杯子放到杯墊旁”，到復雜的“整理早餐托盤”，再到需要精細操作的“給蘋果去核”。這些數據不僅有真實的機器人操作錄像，也包含了模擬環境中的數據，形成了一個虛實結合的龐大知識庫。

有了數據，還需要一個足夠聰明的“大腦”來學習。研究團隊采用了一種名為“擴散策略（Diffusion Policy）”的生成模型。簡單來說，這個模型能夠接收來自多個攝像頭的RGB圖像、描述任務的文本指令（例如“將獼猴桃放到桌子中央”）以及機器人自身的狀態信息作為輸入，然后像AI繪畫一樣，“生成”一系列精準的、連續的機器人動作指令。其內部核心是一個強大的Transformer架構（DiT），使其能夠高效地處理和整合不同來源的信息，做出最終決策。

02.

嚴格的“大考”：LBM與單一任務模型的正面交鋒

模型訓練好了，但它真的比傳統方法更好嗎？為了回答這個問題，研究團隊設計了一套嚴苛的評估流程，旨在以最客觀、最嚴格的方式檢驗LBM的真實能力。

這次“大考”的核心是“盲測”和“隨機A/B測試”。在真實機器人評估環節，操作員在測試時完全不知道自己正在運行的是哪個模型——是經過預訓練和微調的LBM，還是從零開始訓練的單一任務基線模型。模型的測試順序也是完全隨機的，從而排除了因環境變化（如光線改變）或人為偏好帶來的任何潛在偏見。這種雙盲測試在臨床醫學中是黃金標準，但在機器人學研究中卻因其復雜性而鮮有應用。

整個實驗的物理平臺、評估環境和任務多樣性共同構成了這次嚴苛的考驗，其規模和復雜性見下圖，涵蓋了從簡單的放置到需要精細雙臂協調的復雜長序列任務。

團隊在真實世界中進行了1800次這樣的盲測，同時在模擬環境中進行了超過47000次的自動化測試。評估分為兩大類：“已見任務（Seen Tasks）”和“未見任務（Unseen Tasks）”。

對于模型在預訓練數據中已經“見過”的任務，結果顯示，經過微調的LBM在性能上全面優于單一任務基線模型。尤其是在引入“分布偏移”（Distribution Shift，即測試環境與訓練環境有細微差別，例如物體初始位置稍有變動）后，LBM的優勢更加明顯。這表明，從海量數據中學習到的通用知識，讓LBM變得更加穩健（robust），對環境變化的適應能力更強。

然而，真正的考驗在于“未見任務”——那些LBM在預訓練階段從未接觸過的全新挑戰。這直接關系到模型是否具備“舉一反三”的泛化能力。在這里，LBM展現了其最驚人的價值：數據效率（Data Efficiency）。

研究結果清晰地表明，要在一個新任務上達到與單一任務模型相當的性能，經過預訓練的LBM僅需要一小部分（a fraction of）的訓練數據。在模擬實驗中，研究團隊發現，LBM平均只需要不到30%的數據，就能追平甚至超越在100%數據上訓練的單一任務模型。

這個結論在真實世界實驗中得到了更有力的印證。以“擺放早餐桌（SetBreakfastTable）”這個復雜的長序列任務為例，它從未出現在預訓練數據中。

研究團隊發現，僅使用了15%的專屬任務數據進行微調的LBM，其任務完成度的表現就已經在統計上顯著優于使用了全部100%數據從零開始訓練的單一任務模型！LBM僅需不到五分之一的數據就能超越傳統模型，學習效率提升超過5倍。這意味著，預訓練賦予了LBM一個極高的“起點”，使其能夠以數倍于傳統方法的效率快速學習和掌握新技能。這對于降低機器人學習新任務的成本和時間至關重要，是LBM最具吸引力的優勢之一。

03.

從量變到質變？通往通用機器人之路的啟示

這項規模宏大的研究，為機器人領域關于大型行為模型（LBM）的討論，從眾說紛紜的猜想推向了堅實的實證科學。它清晰地回答了核心問題：在當前技術水平下，基于大規模、多樣化數據進行多任務預訓練，是一條切實有效且充滿希望的技術路徑。

研究團隊進一步探索了“規模效應（Scaling Laws）”。他們發現，隨著預訓練數據集規模的擴大，LBM在未見任務上的最終性能也隨之平滑提升。這意味著，至少在當前的數據和模型規模下，我們還遠未觸及性能的天花板。“更多的數據，更好的模型”這一在AI領域被反復驗證的規律，在機器人學中同樣適用。這無疑為未來的研究指明了方向：繼續擴大數據的多樣性和規模，有望催生出能力更強的機器人基礎模型。

當然，這項研究也保持了科學的嚴謹和審慎。研究者們指出，雖然前景光明，但LBM并非“銀彈”。例如，未經任務專屬數據微調的“零樣本”LBM，其表現并不穩定，有時甚至無法正確理解任務指令。這表明，“預訓練+微調”的范式在現階段仍然是不可或缺的。此外，研究還強調了嚴格統計分析的重要性，警示領域內許多研究可能因樣本量不足而得出不可靠的結論，為未來的機器人學研究設立了更高的實驗標準。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.