網易首頁 > 網易號 > 正文 申請入駐

拒絕“出廠即巔峰”!具身訓練系統再進化:LWD讓機器人自主開啟“打怪練級”

0
分享至


智東西
作者 江宇
編輯 漠影

當前具身智能的發展,正卡在一個越來越明確的瓶頸上:數據規模與真實世界經驗的不足。

過去幾年,VLA等大模型讓機器人在“預訓練階段”取得了顯著進展,但一旦進入真實部署環境,問題隨之暴露——面對復雜、多變的物理世界,模型能力很難持續提升,依然高度依賴人工標注數據和重復訓練。

這也意味著,具身智能尚未真正進入“規;鲩L”的階段。

僅依賴實驗室數據或仿真環境,很難支撐機器人能力的持續演進;真正能夠帶來躍遷的,仍然是來自真實世界、持續積累的高質量交互數據。但問題在于:這些數據從哪里來?

現階段,大量訓練數據仍依賴人工示教或遙操作采集,規模有限、成本高昂,且難以覆蓋開放環境中的復雜長尾場景。

要讓數據規模真正“滾動起來”,唯一可行的路徑,是讓機器人走出實驗室,在真實場景中長期運行,并將交互經驗持續回流。

也正是在這一背景下,上海創智學院和智元具身研究中心聯合發布了最新成果羅劍嵐團隊提出LWD(Learning While Deploying)大規模強化學習訓練系統。該工作由創智學院導師,智元首席科學家羅劍嵐團隊完成。嘗試將“部署”本身轉化為學習過程的一部分。


這項工作并不聚焦單一算法突破,更給出了一種更具工程可行性的方案——通過在真實世界中持續運行機器人,并將其行為數據統一回流與更新,讓每一臺機器人既是任務執行者,也是持續產生學習信號的數據源,從而推動通用策略在部署過程中不斷進化。

一、讓數據飛輪在物理世界自主狂奔

傳統模仿學習范式下,非完美的運行軌跡往往被視為“廢數據”直接丟棄,機器人只能從成功的人類演示中刻板地模仿。

LWD的核心顛覆在于,它構建了一個由真實世界強化學習驅動的閉環數據飛輪。

在這個飛輪中,機器人集群在真實任務中自主執行并積累異構的交互經驗,無論是完美的成功軌跡、試錯后的自我恢復、還是人類為了覆蓋邊界情況而引導的失敗案例,都會被統一輸送至云端的共享重放緩沖區。

強化學習機制使得這些在傳統視角下的“失敗”或“意外”數據,全部轉化為了指導模型規避錯誤、優化價值評估的寶貴經驗。

隨著集群部署規模的擴大和運行時間的累積,數據飛輪的轉速不斷提升,云端持續更新的強策略又會定期下發給機器人,形成真正的自主造血閉環。

二、強化學習算法深層進化:在嘈雜數據中,精準捕捉“進步”信號

將強化學習應用于真實世界部署的大規模機器人集群,面臨著極端的算法挑戰。

不同機器人在不同任務中產生的數據極其龐雜,包含著完全不同的指令、長短不一的操作過程,以及非常稀疏的獎勵反饋。

為了在這些充滿噪聲的“異質數據”中穩定提取有用的學習信號,LWD創新性地引入了分布隱式價值學習(DIVL)算法。

簡單來說,以往的算法像是在給機器人的表現打一個固定的“平均分”,但在復雜環境中這種打分極不準確;而DIVL則讓機器人學會去理解表現的“概率分布”,它不再只看一個點,而是觀察整個可能性的區間。

這讓機器人在很少得到明確獎勵的情況下,也能精準判斷哪些動作風險更高、哪些動作更值得嘗試,從而有效解決了評價不準、容易過度樂觀的老大難問題。

與此同時,針對VLA模型通過多步去噪產生動作的特點,傳統的更新方式計算量大且容易跑偏。

LWD結合了Q-learning with Adjoint Matching(QAM),為模型找到了一條數學上的“進化捷徑”,讓復雜的策略更新不再需要推倒重來,而是通過局部調整就能實現快速迭代,保證了機器人在大規模部署時的學習效率。


三、煉就“通才策略”:挑戰5分鐘長程復雜操作的極限成功率

為了驗證這套訓練框架的實戰表現,研究團隊在智元G1雙臂機器人集群上進行了大規模的真實世界部署測試

測試涵蓋了八項極具挑戰性的多模態操作任務,包括四類考驗語義識別與泛化的商超貨架動態補貨任務,以及泡功夫茶、榨果汁、調酒、裝鞋入盒等四類長程連貫操作任務。


▲評測任務示意圖。(A)調制雞尾酒;(B)沖泡功夫茶;(C)制作果汁;(D)裝鞋入盒;(E)商超補貨。

在這些持續時間長達5到8分鐘、包含數十個接觸豐富且存在長程依賴的物理交互任務中,LWD展現出了壓倒性的優勢。


▲各任務逐步成功率的實驗結果

實驗數據顯示,經過在線真實經驗積累后,LWD訓練出的單一通用策略在所有任務上的平均成功率達到了驚人的0.95,遠超純行為克隆(0.76)以及先進的離線強化學習基線如RECAP(0.86)和 Dagger-SOP(0.82)。


▲八項真實世界操作任務的主要結果,涵蓋四類商超補貨任務和四類長程任務。結果顯示,LWD(在線)取得了最高的整體平均成績,并在四項長程任務中全部獲得最高分,同時在商超補貨任務中也保持在最優或接近最優水平。


▲調制雞尾酒

尤其在最考驗中間錯誤恢復與長期信用分配的長程任務中,LWD在線更新后的成功率實現了極大幅度的躍升,證明了基于物理世界經驗的持續學習是突破復雜操作天花板的有效路徑。


▲圖中展示了功夫茶任務中一次成功執行(左)和一次失敗執行(右)的價值曲線。結果表明,所學習到的價值能夠對任務完成進度提供有意義的表征。

結語:把“部署”變成能力增長起點,讓機器人在真實世界持續進化

在具身智能的產業化進程中,LWD推動的不僅是算法框架的升級,更是機器人能力迭代方式的一次重要轉向。

長久以來,業界習慣將“部署”視為模型訓練的終點,而LWD的提出證明了,自主改進應當成為通用機器人策略的基本屬性。

學習不應是“出廠即封存的靜態能力”,而必須成為部署之后在真實世界里一直延續的進化過程。

只有賦予機器人從海量無序的真實物理交互中自主提取“養分”、持續自我進化的能力,其才能真正打破被人工標注數據框定的舒適區,在千行百業的復雜、開放場景中長久地釋放商業價值。


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
婚房剛布置完,婆婆帶人來換鎖,我平靜旁觀,一周后,房子被法院查封

婚房剛布置完,婆婆帶人來換鎖,我平靜旁觀,一周后,房子被法院查封

游戲收藏指南
2026-05-01 15:07:50
第二個惡魔醫生被抓,鄭大一附院王福建為94名患者植入不需要器械

第二個惡魔醫生被抓,鄭大一附院王福建為94名患者植入不需要器械

大魚簡科
2026-02-18 22:03:00
山東大蒜價格“突變”,看這兩天收購價是多少?沒想到會這么離譜

山東大蒜價格“突變”,看這兩天收購價是多少?沒想到會這么離譜

三農雷哥
2026-04-30 19:30:11
新華時評丨勞動光榮的價值底色永遠閃亮

新華時評丨勞動光榮的價值底色永遠閃亮

新華社
2026-04-30 20:54:03
16股,低估值+高成長!

16股,低估值+高成長!

證券時報e公司
2026-05-01 17:29:29
湯尤杯戰報:4強出爐!石宇奇火線復出鏖戰3局,11-0暴打大馬一單

湯尤杯戰報:4強出爐!石宇奇火線復出鏖戰3局,11-0暴打大馬一單

求球不落諦
2026-05-01 17:21:33
一個家庭最大的災難不是貧窮,而是父母才50歲,就處于這種狀態

一個家庭最大的災難不是貧窮,而是父母才50歲,就處于這種狀態

真實人物采訪
2025-12-02 17:00:03
震驚!一女生在小區騎平衡車摔倒骨折,要求物業賠償,評論區炸鍋

震驚!一女生在小區騎平衡車摔倒骨折,要求物業賠償,評論區炸鍋

火山詩話
2026-05-01 07:42:27
菲律賓萬萬想不到!精心安排在"仁愛礁"的破船 ,卻助力了中國

菲律賓萬萬想不到!精心安排在"仁愛礁"的破船 ,卻助力了中國

泠泠說史
2026-04-11 20:01:18
《乘風2026》選人環節曾沛慈一把牽走張慧雯,有救贖文那味兒了

《乘風2026》選人環節曾沛慈一把牽走張慧雯,有救贖文那味兒了

娛樂寡姐
2026-05-01 20:25:08
蘋果唯一的缺點也沒了

蘋果唯一的缺點也沒了

星球商業評論
2026-04-28 22:04:34
5月起買煙大變天!不止漲價,這4件事老煙民必須提前懂

5月起買煙大變天!不止漲價,這4件事老煙民必須提前懂

椰青美食分享
2026-04-30 17:45:49
每小時108GB:一款游戲如何"燒穿"固態硬盤

每小時108GB:一款游戲如何"燒穿"固態硬盤

野生運營
2026-05-01 11:26:03
原來名字起太大,一般人根本壓不住!網友:教訓,老祖宗早說過了

原來名字起太大,一般人根本壓不!網友:教訓,老祖宗早說過了

夜深愛雜談
2026-04-30 21:37:49
近照嚴重韓化,47歲高齡拼二胎的湯唯,這次要為自己的選擇買單了

近照嚴重韓化,47歲高齡拼二胎的湯唯,這次要為自己的選擇買單了

白面書誏
2026-05-01 18:02:02
長期吃阿司匹林,最致命副作用只有一個!想要保命,務必注意3點

長期吃阿司匹林,最致命副作用只有一個!想要保命,務必注意3點

路醫生健康科普
2026-05-01 17:55:03
“日雜”女“港獨”,因一句話被日本人網暴、扣“反日”帽子

“日雜”女“港獨”,因一句話被日本人網暴、扣“反日”帽子

俠客棧
2026-05-01 13:14:02
馬卡:塞瓦略斯已經向阿韋洛亞提出不再進行任何私下往來

馬卡:塞瓦略斯已經向阿韋洛亞提出不再進行任何私下往來

懂球帝
2026-05-01 16:13:06
他本是國民黨殺手,卻放走了19個共產黨人,建國后如何處置他的?

他本是國民黨殺手,卻放走了19個共產黨人,建國后如何處置他的?

云霄紀史觀
2026-05-01 01:08:07
廣州“賣一買一”最高補3萬、天津可退個稅,多地出臺樓市調控新政

廣州“賣一買一”最高補3萬、天津可退個稅,多地出臺樓市調控新政

新京報
2026-05-01 12:36:09
2026-05-01 21:07:00
智東西 incentive-icons
智東西
智東西,AI產業新媒體,專注報道人工智能的前沿技術發展,和技術應用帶來的千行百業產業變革。
11742文章數 117060關注度
往期回顧 全部

科技要聞

蘋果上季在華收入繼續大增 iPhone收入新高

頭條要聞

70歲法國老人騎浙江品牌摩托車 穿越多國抵達杭州

頭條要聞

70歲法國老人騎浙江品牌摩托車 穿越多國抵達杭州

體育要聞

無奈!約基奇:這要在塞爾維亞 全隊早被炒了

娛樂要聞

馬筱梅產后身材恢復超好 現身戶外直播

財經要聞

GPU神話松動,AI真正的戰場變了

汽車要聞

限時9.67萬起 吉利星越L/星瑞i-HEV智擎混動上市

態度原創

旅游
親子
時尚
公開課
軍事航空

旅游要聞

五一“微度假”受熱捧|惠民縣田園景區日迎萬人 無動力設施成親子游新寵

親子要聞

寶藍和爸爸比賽吹氣球,吹成各種各樣的形狀,快來看看誰贏了~

她們看起來氣血好足,每套搭配我都想抄

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊朗:持續推進海上封鎖的行為不可容忍

無障礙瀏覽 進入關懷版