從科幻電影中的全能管家,到現實工業中的自動化臂膀,我們對“通用機器人”的想象與探索從未停止。近年來,隨著人工智能領域大型語言模型(LLM)和視覺基礎模型的巨大成功,一個自然而然的問題擺在了機器人學界面前:我們能否為機器人也打造一個“基礎模型”,讓它像人類一樣,能夠理解多樣的指令,并靈活完成各種從未見過的任務?
![]()
這個問題的答案,或許就藏在剛剛登上國際頂級期刊《科學·機器人學》(Science Robotics)最新一期封面的研究中。來自豐田研究院(TRI)等機構的研究團隊,通過一項重磅實驗為我們揭示了大型行為模型(Large Behavior Models, LBMs)的真實能力。這項研究并非停留在理論或簡單的模擬,而是基于約1700小時的機器人演示數據,在模擬和真實世界中進行了超過47000次的嚴苛測試,最終為通往通用機器人的道路提供了堅實的經驗證據和洞見。
![]()
01.
“大海撈針”式的預訓練:從海量數據中學習通用技能
要讓機器人變得“通用”,傳統的“專才”培養模式顯然行不通。過去,研究者們通常會為一個特定任務(比如“拿起蘋果”)訓練一個專門的模型。這種模型在特定場景下表現優異,但一旦任務或環境稍有變化(比如蘋果換成梨,或者光線變暗),它就可能“罷工”。這種脆弱性,是通往通用機器人之路的最大障礙之一。
受AI領域“大力出奇跡”的啟發,研究者們提出了大型行為模型(LBM)這一新范式。其核心思想很簡單:不再為每個任務單獨訓練模型,而是用一個龐大而統一的模型,去學習成百上千種不同任務的解決方式。就像人類通過觀察和實踐學會各種技能一樣,LBM的目標是從海量、多樣化的數據中,自主提煉出關于物理世界和機器人操作的通用知識。
為了實現這一目標,研究團隊構建了一個名為“Ramen”的龐大預訓練數據集。這個數據集包含了約1700小時的機器人操作演示,涵蓋了超過500個內部收集的高多樣性任務以及大量公開的機器人數據。這些任務五花八門,從簡單的“把杯子放到杯墊旁”,到復雜的“整理早餐托盤”,再到需要精細操作的“給蘋果去核”。這些數據不僅有真實的機器人操作錄像,也包含了模擬環境中的數據,形成了一個虛實結合的龐大知識庫。
有了數據,還需要一個足夠聰明的“大腦”來學習。研究團隊采用了一種名為“擴散策略(Diffusion Policy)”的生成模型。簡單來說,這個模型能夠接收來自多個攝像頭的RGB圖像、描述任務的文本指令(例如“將獼猴桃放到桌子中央”)以及機器人自身的狀態信息作為輸入,然后像AI繪畫一樣,“生成”一系列精準的、連續的機器人動作指令。其內部核心是一個強大的Transformer架構(DiT),使其能夠高效地處理和整合不同來源的信息,做出最終決策。
02.
嚴格的“大考”:LBM與單一任務模型的正面交鋒
模型訓練好了,但它真的比傳統方法更好嗎?為了回答這個問題,研究團隊設計了一套嚴苛的評估流程,旨在以最客觀、最嚴格的方式檢驗LBM的真實能力。
這次“大考”的核心是“盲測”和“隨機A/B測試”。在真實機器人評估環節,操作員在測試時完全不知道自己正在運行的是哪個模型——是經過預訓練和微調的LBM,還是從零開始訓練的單一任務基線模型。模型的測試順序也是完全隨機的,從而排除了因環境變化(如光線改變)或人為偏好帶來的任何潛在偏見。這種雙盲測試在臨床醫學中是黃金標準,但在機器人學研究中卻因其復雜性而鮮有應用。
整個實驗的物理平臺、評估環境和任務多樣性共同構成了這次嚴苛的考驗,其規模和復雜性見下圖,涵蓋了從簡單的放置到需要精細雙臂協調的復雜長序列任務。
![]()
團隊在真實世界中進行了1800次這樣的盲測,同時在模擬環境中進行了超過47000次的自動化測試。評估分為兩大類:“已見任務(Seen Tasks)”和“未見任務(Unseen Tasks)”。
對于模型在預訓練數據中已經“見過”的任務,結果顯示,經過微調的LBM在性能上全面優于單一任務基線模型。尤其是在引入“分布偏移”(Distribution Shift,即測試環境與訓練環境有細微差別,例如物體初始位置稍有變動)后,LBM的優勢更加明顯。這表明,從海量數據中學習到的通用知識,讓LBM變得更加穩健(robust),對環境變化的適應能力更強。
![]()
然而,真正的考驗在于“未見任務”——那些LBM在預訓練階段從未接觸過的全新挑戰。這直接關系到模型是否具備“舉一反三”的泛化能力。在這里,LBM展現了其最驚人的價值:數據效率(Data Efficiency)。
研究結果清晰地表明,要在一個新任務上達到與單一任務模型相當的性能,經過預訓練的LBM僅需要一小部分(a fraction of)的訓練數據。在模擬實驗中,研究團隊發現,LBM平均只需要不到30%的數據,就能追平甚至超越在100%數據上訓練的單一任務模型。
![]()
這個結論在真實世界實驗中得到了更有力的印證。以“擺放早餐桌(SetBreakfastTable)”這個復雜的長序列任務為例,它從未出現在預訓練數據中。
研究團隊發現,僅使用了15%的專屬任務數據進行微調的LBM,其任務完成度的表現就已經在統計上顯著優于使用了全部100%數據從零開始訓練的單一任務模型!LBM僅需不到五分之一的數據就能超越傳統模型,學習效率提升超過5倍。這意味著,預訓練賦予了LBM一個極高的“起點”,使其能夠以數倍于傳統方法的效率快速學習和掌握新技能。這對于降低機器人學習新任務的成本和時間至關重要,是LBM最具吸引力的優勢之一。
![]()
03.
從量變到質變?通往通用機器人之路的啟示
這項規模宏大的研究,為機器人領域關于大型行為模型(LBM)的討論,從眾說紛紜的猜想推向了堅實的實證科學。它清晰地回答了核心問題:在當前技術水平下,基于大規模、多樣化數據進行多任務預訓練,是一條切實有效且充滿希望的技術路徑。
研究團隊進一步探索了“規模效應(Scaling Laws)”。他們發現,隨著預訓練數據集規模的擴大,LBM在未見任務上的最終性能也隨之平滑提升。這意味著,至少在當前的數據和模型規模下,我們還遠未觸及性能的天花板。“更多的數據,更好的模型”這一在AI領域被反復驗證的規律,在機器人學中同樣適用。這無疑為未來的研究指明了方向:繼續擴大數據的多樣性和規模,有望催生出能力更強的機器人基礎模型。
![]()
當然,這項研究也保持了科學的嚴謹和審慎。研究者們指出,雖然前景光明,但LBM并非“銀彈”。例如,未經任務專屬數據微調的“零樣本”LBM,其表現并不穩定,有時甚至無法正確理解任務指令。這表明,“預訓練+微調”的范式在現階段仍然是不可或缺的。此外,研究還強調了嚴格統計分析的重要性,警示領域內許多研究可能因樣本量不足而得出不可靠的結論,為未來的機器人學研究設立了更高的實驗標準。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.