網易首頁 > 網易號 > 正文 申請入駐

Sci Robot最新封面:豐田研究院等重磅發布,新任務學習效率提5倍

0
分享至

從科幻電影中的全能管家,到現實工業中的自動化臂膀,我們對“通用機器人”的想象與探索從未停止。近年來,隨著人工智能領域大型語言模型(LLM)和視覺基礎模型的巨大成功,一個自然而然的問題擺在了機器人學界面前:我們能否為機器人也打造一個“基礎模型”,讓它像人類一樣,能夠理解多樣的指令,并靈活完成各種從未見過的任務?



這個問題的答案,或許就藏在剛剛登上國際頂級期刊《科學·機器人學》(Science Robotics)最新一期封面的研究中。來自豐田研究院(TRI)等機構的研究團隊,通過一項重磅實驗為我們揭示了大型行為模型(Large Behavior Models, LBMs)的真實能力。這項研究并非停留在理論或簡單的模擬,而是基于約1700小時的機器人演示數據,在模擬和真實世界中進行了超過47000次的嚴苛測試,最終為通往通用機器人的道路提供了堅實的經驗證據和洞見。



01.

“大海撈針”式的預訓練:從海量數據中學習通用技能

要讓機器人變得“通用”,傳統的“專才”培養模式顯然行不通。過去,研究者們通常會為一個特定任務(比如“拿起蘋果”)訓練一個專門的模型。這種模型在特定場景下表現優異,但一旦任務或環境稍有變化(比如蘋果換成梨,或者光線變暗),它就可能“罷工”。這種脆弱性,是通往通用機器人之路的最大障礙之一。

受AI領域“大力出奇跡”的啟發,研究者們提出了大型行為模型(LBM)這一新范式。其核心思想很簡單:不再為每個任務單獨訓練模型,而是用一個龐大而統一的模型,去學習成百上千種不同任務的解決方式。就像人類通過觀察和實踐學會各種技能一樣,LBM的目標是從海量、多樣化的數據中,自主提煉出關于物理世界和機器人操作的通用知識。

為了實現這一目標,研究團隊構建了一個名為“Ramen”的龐大預訓練數據集。這個數據集包含了約1700小時的機器人操作演示,涵蓋了超過500個內部收集的高多樣性任務以及大量公開的機器人數據。這些任務五花八門,從簡單的“把杯子放到杯墊旁”,到復雜的“整理早餐托盤”,再到需要精細操作的“給蘋果去核”。這些數據不僅有真實的機器人操作錄像,也包含了模擬環境中的數據,形成了一個虛實結合的龐大知識庫。

有了數據,還需要一個足夠聰明的“大腦”來學習。研究團隊采用了一種名為“擴散策略(Diffusion Policy)”的生成模型。簡單來說,這個模型能夠接收來自多個攝像頭的RGB圖像、描述任務的文本指令(例如“將獼猴桃放到桌子中央”)以及機器人自身的狀態信息作為輸入,然后像AI繪畫一樣,“生成”一系列精準的、連續的機器人動作指令。其內部核心是一個強大的Transformer架構(DiT),使其能夠高效地處理和整合不同來源的信息,做出最終決策。

02.

嚴格的“大考”:LBM與單一任務模型的正面交鋒

模型訓練好了,但它真的比傳統方法更好嗎?為了回答這個問題,研究團隊設計了一套嚴苛的評估流程,旨在以最客觀、最嚴格的方式檢驗LBM的真實能力。

這次“大考”的核心是“盲測”和“隨機A/B測試”。在真實機器人評估環節,操作員在測試時完全不知道自己正在運行的是哪個模型——是經過預訓練和微調的LBM,還是從零開始訓練的單一任務基線模型。模型的測試順序也是完全隨機的,從而排除了因環境變化(如光線改變)或人為偏好帶來的任何潛在偏見。這種雙盲測試在臨床醫學中是黃金標準,但在機器人學研究中卻因其復雜性而鮮有應用。

整個實驗的物理平臺、評估環境和任務多樣性共同構成了這次嚴苛的考驗,其規模和復雜性見下圖,涵蓋了從簡單的放置到需要精細雙臂協調的復雜長序列任務。



團隊在真實世界中進行了1800次這樣的盲測,同時在模擬環境中進行了超過47000次的自動化測試。評估分為兩大類:“已見任務(Seen Tasks)”和“未見任務(Unseen Tasks)”

對于模型在預訓練數據中已經“見過”的任務,結果顯示,經過微調的LBM在性能上全面優于單一任務基線模型。尤其是在引入“分布偏移”(Distribution Shift,即測試環境與訓練環境有細微差別,例如物體初始位置稍有變動)后,LBM的優勢更加明顯。這表明,從海量數據中學習到的通用知識,讓LBM變得更加穩健(robust),對環境變化的適應能力更強。



然而,真正的考驗在于“未見任務”——那些LBM在預訓練階段從未接觸過的全新挑戰。這直接關系到模型是否具備“舉一反三”的泛化能力。在這里,LBM展現了其最驚人的價值:數據效率(Data Efficiency)

研究結果清晰地表明,要在一個新任務上達到與單一任務模型相當的性能,經過預訓練的LBM僅需要一小部分(a fraction of)的訓練數據。在模擬實驗中,研究團隊發現,LBM平均只需要不到30%的數據,就能追平甚至超越在100%數據上訓練的單一任務模型。



這個結論在真實世界實驗中得到了更有力的印證。以“擺放早餐桌(SetBreakfastTable)”這個復雜的長序列任務為例,它從未出現在預訓練數據中。

研究團隊發現,僅使用了15%的專屬任務數據進行微調的LBM,其任務完成度的表現就已經在統計上顯著優于使用了全部100%數據從零開始訓練的單一任務模型!LBM僅需不到五分之一的數據就能超越傳統模型,學習效率提升超過5倍。這意味著,預訓練賦予了LBM一個極高的“起點”,使其能夠以數倍于傳統方法的效率快速學習和掌握新技能。這對于降低機器人學習新任務的成本和時間至關重要,是LBM最具吸引力的優勢之一。



03.

從量變到質變?通往通用機器人之路的啟示

這項規模宏大的研究,為機器人領域關于大型行為模型(LBM)的討論,從眾說紛紜的猜想推向了堅實的實證科學。它清晰地回答了核心問題:在當前技術水平下,基于大規模、多樣化數據進行多任務預訓練,是一條切實有效且充滿希望的技術路徑。

研究團隊進一步探索了“規模效應(Scaling Laws)”。他們發現,隨著預訓練數據集規模的擴大,LBM在未見任務上的最終性能也隨之平滑提升。這意味著,至少在當前的數據和模型規模下,我們還遠未觸及性能的天花板。“更多的數據,更好的模型”這一在AI領域被反復驗證的規律,在機器人學中同樣適用。這無疑為未來的研究指明了方向:繼續擴大數據的多樣性和規模,有望催生出能力更強的機器人基礎模型。



當然,這項研究也保持了科學的嚴謹和審慎。研究者們指出,雖然前景光明,但LBM并非“銀彈”。例如,未經任務專屬數據微調的“零樣本”LBM,其表現并不穩定,有時甚至無法正確理解任務指令。這表明,“預訓練+微調”的范式在現階段仍然是不可或缺的。此外,研究還強調了嚴格統計分析的重要性,警示領域內許多研究可能因樣本量不足而得出不可靠的結論,為未來的機器人學研究設立了更高的實驗標準。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
震驚!網傳深圳中專打工女偽造百億富三代人設,收割尊界S800車主

震驚!網傳深圳中專打工女偽造百億富三代人設,收割尊界S800車主

火山詩話
2026-04-20 13:37:00
美國8名兒童遭槍擊死亡:槍手為其中7名兒童的父親,逃跑被擊斃現場曝光

美國8名兒童遭槍擊死亡:槍手為其中7名兒童的父親,逃跑被擊斃現場曝光

新京報
2026-04-20 10:02:29
越南百億高鐵訂單給德國,來華體驗12小時高鐵,背后算計太明顯

越南百億高鐵訂單給德國,來華體驗12小時高鐵,背后算計太明顯

苗苗情感說
2026-04-19 12:38:15
大跌眼鏡!“做空閨蜜”登熱搜,勸閨蜜不婚不育,自己孩子10歲了

大跌眼鏡!“做空閨蜜”登熱搜,勸閨蜜不婚不育,自己孩子10歲了

火山詩話
2026-04-20 07:28:33
被蘋果、華為干倒的諾基亞,又殺回來了!

被蘋果、華為干倒的諾基亞,又殺回來了!

大佬灼見
2026-04-19 10:28:53
中國不能獨享核聚變技術?美國可以獨享芯片技術,美國憑啥雙標?

中國不能獨享核聚變技術?美國可以獨享芯片技術,美國憑啥雙標?

史智文道
2026-04-19 10:15:13
假如應用也可以像朋友圈一樣傳播?

假如應用也可以像朋友圈一樣傳播?

愛范兒
2026-04-20 10:22:35
魔術112-101擊敗東部第1!這一戰不得不承認6大現實:騎士賭對了

魔術112-101擊敗東部第1!這一戰不得不承認6大現實:騎士賭對了

毒舌NBA
2026-04-20 09:19:51
六個省級黨委領導班子調整

六個省級黨委領導班子調整

上觀新聞
2026-04-20 16:16:16
醪糟再次被關注!醫生發現:高血脂患者喝醪糟,不用多久4大變化

醪糟再次被關注!醫生發現:高血脂患者喝醪糟,不用多久4大變化

芹姐說生活
2026-04-19 15:52:53
叛逃至我國級別最高的外國領導人:越南副主席黃文歡,結局如何?

叛逃至我國級別最高的外國領導人:越南副主席黃文歡,結局如何?

興趣知識
2026-04-20 01:15:11
美方扣押一艘中國駛來伊朗貨船,外交部:對美方強制截停有關船只表示關切

美方扣押一艘中國駛來伊朗貨船,外交部:對美方強制截停有關船只表示關切

澎湃新聞
2026-04-20 15:42:26
太難了!貴州女子哭訴生意不好,想把女兒生活費2000降到1600遭拒

太難了!貴州女子哭訴生意不好,想把女兒生活費2000降到1600遭拒

火山詩話
2026-04-20 13:51:19
1999年,69歲禹作敏獄中難耐孤寂,死前曾向李瑞環提出:我想回家

1999年,69歲禹作敏獄中難耐孤寂,死前曾向李瑞環提出:我想回家

華人星光
2026-04-20 09:59:15
英海事分析公司:過去36小時有35艘船只在 駛出霍爾木茲海峽途中掉頭

英海事分析公司:過去36小時有35艘船只在 駛出霍爾木茲海峽途中掉頭

每日經濟新聞
2026-04-20 09:19:23
小學生拒絕借車遭毆打搜家,一名施暴者及家長上門道歉,教育局稱校園欺凌專干介入,警方:“入室搶劫案”仍在調查

小學生拒絕借車遭毆打搜家,一名施暴者及家長上門道歉,教育局稱校園欺凌專干介入,警方:“入室搶劫案”仍在調查

極目新聞
2026-04-20 16:20:59
CBA最新消息!上海男籃大將常規賽報銷,北京首鋼簽約頂級后衛

CBA最新消息!上海男籃大將常規賽報銷,北京首鋼簽約頂級后衛

體壇瞎白話
2026-04-20 12:52:14
貴州茅臺股價盤中反超源杰科技,重新成為A股市場股價“一哥”

貴州茅臺股價盤中反超源杰科技,重新成為A股市場股價“一哥”

界面新聞
2026-04-20 10:52:14
重慶撒潑“毒母女”一夜全國出名,誰看了不喊一句離譜!

重慶撒潑“毒母女”一夜全國出名,誰看了不喊一句離譜!

脆皮先生
2026-04-19 19:37:38
以軍:打死阿里·里達·阿巴斯

以軍:打死阿里·里達·阿巴斯

南方都市報
2026-04-19 21:17:31
2026-04-20 18:32:49
機器人大講堂 incentive-icons
機器人大講堂
立德機器人平臺,是一個集媒體品牌、智庫咨詢、投資孵化、引智招商為一體的機器人垂直領域服務平臺
6472文章數 4583關注度
往期回顧 全部

科技要聞

華為Pura90逆周期定價,4699元起,未漲價

頭條要聞

小伙入職僅一天公司40多部手機集體"失靈" 警方提醒

頭條要聞

小伙入職僅一天公司40多部手機集體"失靈" 警方提醒

體育要聞

阿森納已拼盡全力,但你早干嘛去了...

娛樂要聞

鹿晗生日上熱搜,被關曉彤撕下體面

財經要聞

月之暗面IPO迷局

汽車要聞

把天門山搬進廠?開仰望U8沖上45度坡的那刻 我腿軟了

態度原創

旅游
房產
健康
數碼
教育

旅游要聞

英國倫敦:維多利亞與阿爾伯特博物館東館即將開放

房產要聞

大規模商改住!海口西海岸,這波項目要贏麻了!

干細胞抗衰4大誤區,90%的人都中招

數碼要聞

華為MateBook 14鴻蒙版筆記本官宣搭載麒麟X90處理器

教育要聞

突發!丘班真的要取消了?

無障礙瀏覽 進入關懷版