无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

對話羅劍嵐:把機器人“部署”本身變成訓練的一部分

0
分享至


作者 | 華衛

具身智能過去兩年始終無法回避的核心矛盾:模型越來越強,但機器人仍然很“笨拙”。真實部署不是一個固定測試集,機器人進入商店、家庭和工作空間后,會不斷遇到預訓練數據沒有覆蓋的新物體、新擺放、新指令偏好和長尾失敗。原因并不復雜,長期以來,機器人的絕大多數能力來自離線訓練,而真實世界卻從未真正進入訓練閉環。

最近,羅劍嵐團隊拿出了解決方案:把“部署”本身變成訓練的一部分。上海創智學院與智元機器人聯合發布了這套方法名為 LWD(Learning While Deploying),不試圖解決某一個單點技術問題,直接改寫整個訓練范式:讓落地后的機器人在實際工作中回流數據并反哺訓練、更新能力,而不是等著它在數據集里一次性“學夠”。

發布后不久,上海創智學院副教授、智元機器人首席科學家羅劍嵐向我們詳細披露了 LWD 這項工作未對外公示的技術設計細節及這套體系接下來的演進方向。

機器人“邊干邊學”后

成功率達到 95%

在傳統路徑中,具身模型通常經歷大規模預訓練、模仿學習、再到有限的強化學習優化,最后進入部署驗證階段。這個流程的問題在于,部署即為結束,真實世界的數據包括環境變化帶來的分布偏移、長尾任務中的探索過程,以及失敗暴露出的能力邊界并沒有被系統性地吸收進下一輪訓練。最有價值的那部分經驗,反而被浪費掉了。

而 LWD 的核心能力,可以打通這一斷裂。它將機器人學習過程重構為一個持續運轉的數據飛輪:離線強化學習預訓練得到初始策略,推送到機器人集群中執行;機器人在真實環境中產生的自主軌跡和人工接管數據實時回流;Learner 在云端進行在線強化學習更新;再將優化后的策略同步回機器人集群,如此循環往復。

在這個框架下,每一臺部署中的機器人,既是執行者,也是數據采集節點,真實世界從“測試集”變成了“主訓練場”。部署不再是訓練的終點,而是機器人智能持續提升的起點。

據介紹,團隊在 16 臺雙臂機器人組成的真實集群上,針對商超補貨、泡茶、榨汁、物品收納等 8 個復雜任務進行了系統測試。這些任務往往需要持續數分鐘的多步驟規劃和精細物理操作。評測結果顯示,搭載新框架的機器人平均成功率達到了 95%,顯著優于傳統方案。在最棘手的長程任務中,新框架帶來了最高 17%的成功率提升,而且單次任務平均操作周期縮短了約 23.75 秒。這意味著機器人變得更聰明,學會了自我糾錯和路徑優化。

在被問及 LWD 的數據飛輪要真正轉起來的瓶頸時,羅劍嵐直接指向了一個更底層的現實約束,即大規模真實部署背后的經濟問題?!皺C器人是一個系統工程,數據、基建、算法、機器人數量以及人工干預都重要,但如果只看當前階段,最核心的問題還是 cost。只有當足夠多的機器人在真實場景中持續干活,積累上萬小時甚至上萬臺規模的交互數據,這個飛輪才有機會真正閉環運轉。即使現有算法還不完美,其中大量 incremental improvement 依然可以工作?!?/p>

這也意味著,部署本身正在成為新的訓練資源。“換句話說,誰能部署更多機器人、讓更多真實數據持續回流,誰就更有機會把數據飛輪真正轉起來?!绷_劍嵐還表示,在 scale up 過程中,還會繼續遇到數據質量、基礎設施和算法層面的新問題。但這些問題是隨著部署規模擴大逐步暴露、逐步解決,而不是在一開始就能完全預先解決。

部署數據全部回流

人工干預不等同成功示范

羅劍嵐提出的這條路徑,聽起來像是一項順理成章的演進。但真正的難點在于,這種從離線到在線的統一訓練,需要同時解決分布偏移、獎勵稀疏和數據來源的高度異構三個問題。

據羅劍嵐介紹,圍繞這些難點,LWD 在技術設計上做出了一系列關鍵選擇,包括讓所有部署數據無篩選回流、通過強化學習框架統一處理不同來源數據、將人工干預數據通過結果自動打標納入同一獎勵體系,以及采用稀疏獎勵來避免 reward hacking 問題。

首先,LWD 是強化學習框架,部署后的數據會全部回流使用,沒有人工篩選步驟。系統是在線、分布式地把數據拿回來訓練。但對于人工干預數據,處理方式也不是簡單地一律當成成功示范,而是自動打標的。如果人工干預后任務最終成功,就標記為 1;如果干預后仍然失敗,就標記為 0。

更重要的一點是,干預率本身是在下降的。羅劍嵐稱,隨著機器人自主能力提升、數據不斷回流,系統會越來越少依賴人工接管。所以在實際形態上,更像是一種混合自治:初期人機協作較多,后期逐步過渡到更高自主性。“這一點其實和自動駕駛的發展路徑是類似的?!?/p>

其次,LWD 獎勵函數使用的是稀疏獎勵。核心原因是 dense reward 容易帶來 reward hacking。稠密獎勵確實可能讓模型學得更快,因為它提供了 shaping 信號;但手寫 reward function 往往很難和真實物理系統、智能體真正應該完成的行為一一對應。

羅劍嵐舉的一個典型例子是仿真里用 RL 學走路:如果獎勵只寫成“重心速度越快越好”,模型可能會找到一種不符合常識的“前進方式”,比如把頭放在地上、腿朝上,用奇怪姿態讓重心快速移動。為了修正這些問題,又要不斷增加腳朝地、頭朝上、姿態合理等額外項,最后 reward function 會變得非常復雜,而且仍然不一定和真實目標完全一致。

“機器人操作也是類似的。manipulation 任務里,很難一次性把所有細節獎勵都寫對;只要沒寫對,就可能被模型 hack。因此稀疏獎勵的好處是,它至少能保證最終行為符合預期:成功就是 1,不成功就是 0?!彼蔡寡?,盡管如此,稀疏獎勵的問題也很明顯:長程任務中信號很少,backup 不穩定,很難把正確信號傳回前面的步驟。LWD 用 distributional value learning 來緩解這個問題,把原本的標量價值信號建模成分布,通過備份這個分布來保留更多統計信息。

對于“邊部署邊學習”可能帶來的安全性與穩定性問題,羅劍嵐也明確表示,在真實部署中,一定會有額外的安全層。模型不會每時每刻都在變化,更新是有節奏、有控制的。另外,基礎模型本身成功率就比較高,在線學習更多是在這個基礎上做提升,而不是完全不穩定的探索。

率先跑通閉環:

最適合的是“middle ground”

當“部署也變成訓練”這件事成立之后,它改變的就不只是單一算法或系統設計,而是整個具身智能的技術路徑與產業邏輯。

在羅劍嵐看來,這一過程可以參考自動駕駛的發展。自動駕駛沒有辦法在真實道路上隨意在線試錯,所以會發展出世界模型、高保真仿真器和離線評測體系;從產業鏈看,它也經歷了從少量試采車、離線數據采集,逐漸轉向部署數據回流、處理回流數據、再訓練、再推送模型的迭代過程。

“機器人如果能形成 LWD 這樣的部署閉環,數據鏈路也會從‘先采集、再訓練、再部署’的離線管線,轉向‘部署中持續回流數據,云端持續訓練,再把新模型推回機器人’的過程。區別在于,機器人場景如果允許在線學習和試錯,這套在線閉環的效率可能會更快?!?/p>

具體落地上,他認為,最適合率先跑通這一閉環的不會是完全開放的家庭場景,也不是高度結構化的工業環境,而是介于兩者之間的“middle ground”,例如商超、藥店和便利店?!斑@類半結構化場景的 layout 和物品類別有一定規律,不是完全不可控;但同時又存在豐富變化,對泛化性和性能都有要求?!?/p>

“大規模實驗中,

未來會涌現 scaling 現象”

LWD 的核心是,預訓練要和部署結合,形成預訓練和后訓練共同驅動的部署閉環。談及 VLA 和世界模型兩條預訓練路線的未來走向,羅劍嵐表示,“如果 VLA 指的是 vision-language-action model,即同時包含視覺、語言和動作,那么它不太可能被世界模型簡單取代。機器人要做動作,一定需要 vision,也一定需要 action?!?/p>

他指出,真正有爭議的更多是 language 是否必要。如果機器人要在開放世界中完成復雜操作、長程任務拆解和類似人的推理,那么 language 是需要的,因為語言模型是目前實現這類推理能力最好的工具之一。

“但現在的 VLA 形式不一定會固定下來。比如是不是一定要把 action 當成若干 token 接到 VLM 后面、對齊到某個 latent space,這些都不一定。”

羅劍嵐還透露,LWD 是在預訓練模型基礎上做后訓練,對數據的利用效率很高,即使用的數據量不算特別大,也能看到性能提升。隨著后訓練時間增加,模型性能會在多個任務上同時提升。“更大規模實驗中,未來可能會看到類似 test-time scaling 的現象。”

不過,羅劍嵐也強調道,機器人不完全等同于語言模型,語言模型的 scaling 往往可以通過 pretraining loss 和下游 benchmark 建立比較清晰的關系。機器人還需要先把問題定義清楚,包括在哪些部署場景、優化哪些指標,才能進一步討論 scaling 或涌現。

聲明:本文為 AI 前線原創,不代表平臺觀點,未經許可禁止轉載。

會議推薦

企業級 Agent 落地,繞不開 4 個真實的工程問題!如何在 Agent 安全性和可用性之間找到平衡點?Agent 需要什么樣的記憶系統才能真正理解上下文?如何通過算法壓榨實現智力增量與成本控制的極致平衡?多 Agent 協作,如何做到可觀測、可治理、可控制?6.26-27 AICon 上海站,國內頭部公司的 Agent 實踐,一次說透。

今日薦文

你也「在看」嗎?

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
突發!長鑫存儲簽200億大單!

突發!長鑫存儲簽200億大單!

中國半導體論壇
2026-06-30 13:26:50
博主稱車載螺紋接口是華為口,已申請專利,小米被迫使用,未來政策收緊,還要交專利費!網友:節奏帶得飛起

博主稱車載螺紋接口是華為口,已申請專利,小米被迫使用,未來政策收緊,還要交專利費!網友:節奏帶得飛起

大白聊IT
2026-06-29 17:52:55
韓紅基金會高管年薪近60萬,韓紅號稱捐資8000萬去向成謎

韓紅基金會高管年薪近60萬,韓紅號稱捐資8000萬去向成謎

八桂知事
2026-06-27 16:28:49
莫蘭特1換2交易評級:開拓者低價撿漏有隱患評B- 灰熊徹底重建評B

莫蘭特1換2交易評級:開拓者低價撿漏有隱患評B- 灰熊徹底重建評B

羅說NBA
2026-06-30 06:31:30
1962年中國打贏就走,結果給印度留了一道千年難題

1962年中國打贏就走,結果給印度留了一道千年難題

遠方風林
2026-06-14 00:29:33
一擲千金的“大哥”越來越少!女主播群體從深圳遷到惠州路邊帳篷

一擲千金的“大哥”越來越少!女主播群體從深圳遷到惠州路邊帳篷

火山詩話
2026-06-29 04:37:21
絕經后性生活怎么辦?頻率多少合適?

絕經后性生活怎么辦?頻率多少合適?

喵咪文化
2026-06-30 06:44:07
中國“撿錢”時代或將來臨:如果手中只有10萬,試試死啃這兩條線

中國“撿錢”時代或將來臨:如果手中只有10萬,試試死啃這兩條線

笑熬漿糊111
2026-06-30 04:00:10
法國隊主帥德尚在母親去世后回國,諷刺雜志一幅漫畫引發激烈批評

法國隊主帥德尚在母親去世后回國,諷刺雜志一幅漫畫引發激烈批評

夢仙境aa
2026-06-30 09:31:38
上海球迷穿日本隊球衣慶祝!上海市足協:足球無國界 球迷有祖國

上海球迷穿日本隊球衣慶祝!上海市足協:足球無國界 球迷有祖國

念洲
2026-06-29 06:50:42
霸權翻車!伊朗再次重創美軍,特朗普火速認慫!

霸權翻車!伊朗再次重創美軍,特朗普火速認慫!

大嘴說天下
2026-06-29 22:30:03
小卡快船生涯即將結束??!多支球隊送上頂薪??!

小卡快船生涯即將結束??!多支球隊送上頂薪?。?/a>

柚子說球
2026-06-30 12:52:46
丘吉爾曾言:如果不是被原子彈炸過,日本這個國家可能就不存在了

丘吉爾曾言:如果不是被原子彈炸過,日本這個國家可能就不存在了

掠影后有感
2026-06-30 09:40:38
日本球迷又開始撿垃圾了,這戲碼上演了快30年了,真的不覺得煩嗎

日本球迷又開始撿垃圾了,這戲碼上演了快30年了,真的不覺得煩嗎

西樓知趣雜談
2026-06-18 17:32:47
今晚開始!央一央八愛奇藝等4部王炸劇來襲!眾星云集,先追哪部

今晚開始!央一央八愛奇藝等4部王炸劇來襲!眾星云集,先追哪部

小椰的奶奶
2026-06-30 01:19:29
陜西砍“孤獨樹”,讓皖陜兩地管理水平高低立判,網友發帖引熱議

陜西砍“孤獨樹”,讓皖陜兩地管理水平高低立判,網友發帖引熱議

火山詩話
2026-06-30 05:30:50
當全世界都忙著吵架時,中國把整整5萬億元,悄悄埋進了地底深處

當全世界都忙著吵架時,中國把整整5萬億元,悄悄埋進了地底深處

科技故事聚焦
2026-06-30 09:54:30
越扒瓜越大!交大女學生吞獎金再添猛料,不止想進體制內這么簡單

越扒瓜越大!交大女學生吞獎金再添猛料,不止想進體制內這么簡單

觀史搜尋著
2026-05-21 05:41:15
迭戈-弗蘭:C羅原地不動就等著門前搶點,他拖累了葡萄牙全隊

迭戈-弗蘭:C羅原地不動就等著門前搶點,他拖累了葡萄牙全隊

懂球帝
2026-06-29 22:12:06
徐達晚年喜得貴子,劉伯溫剛抱起嬰兒臉色就變了:此子不除,徐家百年基業將毀于一旦

徐達晚年喜得貴子,劉伯溫剛抱起嬰兒臉色就變了:此子不除,徐家百年基業將毀于一旦

小影的娛樂
2026-06-30 04:20:48
2026-06-30 14:16:49
AI前線 incentive-icons
AI前線
面向AI愛好者、開發者和科學家,提供AI領域技術資訊。
1586文章數 160關注度
往期回顧 全部

科技要聞

DeepSeek V4正式版要來 高峰期API價格翻倍

頭條要聞

荷蘭隊連續3屆倒在點球大戰 此前9次點球大戰只贏兩場

頭條要聞

荷蘭隊連續3屆倒在點球大戰 此前9次點球大戰只贏兩場

體育要聞

德國足球,臉都不要了

娛樂要聞

韓紅稱要退出公益,多位名人挽留

財經要聞

韓國萬億"芯"基建:存儲能否成AI時代油田

汽車要聞

誰懂啊家人們!爹味和班味一點都沒,這臺底盤最硬國產大獵裝太上頭!

態度原創

藝術
房產
旅游
游戲
健康

藝術要聞

喬治·莫蘭迪簡潔的靜物畫,色彩看著太舒服了!

房產要聞

56.8億!三亞突然開始瘋狂賣地!

旅游要聞

自貢富順:白日繁華鋪錦繡 夜色燈火暖人心

任天堂官方暖心提醒:Switch會員明日漲價!

狂吃“糯嘰嘰”小心腸梗阻!

無障礙瀏覽 進入關懷版