網易首頁 > 網易號 > 正文 申請入駐

Multi-Loco:一個通用基礎模型,駕馭四種形態各異的機器人

0
分享至


ROBOT INDUSTRY

想象一下,一個AI小腦,既能指揮雙足機器人優雅漫步,又能讓四足機器狗敏捷奔跑,還能操控雙輪足機器人進行多地形移動,甚至連復雜的人形機器人也能輕松駕馭。南方科技大學、圣母大學、浙江大學-UIUC聯合學院與逐際動力的最新研究成果,把這個大家夢寐以求的能力實現了。


你是否想過,為什么一個智能家居App就能同時控制家里所有燈光和家電,但教一個機器人學會走路卻要耗費巨大的時間進行訓練?更別提讓一個AI程序去控制所有機器人了。

傳統上,每一種機器人,因為“身材”(形態)、“骨骼”(關節)和“運動方式”(動力學)都不同,幾乎都需要一個“私人教練”—一個專門為它量身定制的AI模型(控制策略)。這不僅耗時耗力,也限制了機器人技術的泛化和快速發展。

而Multi-Loco打破了這一局限,是邁向“機器人通用AI”目標的重要一步。

1

Multi-Loco:一腦多形,用同一個策略控制多種形態的機器人


在2025年9月公布的CoRL 2025論文收錄名單中,逐際動力作為聯合科研團隊再有成果入選。本次由南方科技大學、圣母大學、浙江大學-UIUC聯合學院與逐際動力共同完成的研究《Multi-Loco:Unifying Multi-Embodiment Legged Locomotion via Reinforcement Learning Augmented Diffusion》(《基于強化學習的多形態足式機器人運動統一控制框架》),提出了Multi-Loco,一個基于強化學習的多形態足式機器人運動統一控制框架,是一次在跨形態足式機器人運動控制領域的前沿探索與重要突破。


收錄地址:https://www.corl.org/program

核心目標就一句話:用同一個AI策略,控制多種形態迥異的足式機器人。

如圖1所示,下面有四款構型、步態、運動模式完全不同的足式機器人,從最簡構型的雙點足機器人,到注重移動效率的雙輪足機器人,再到更靈活、系統也更復雜的四足狗和全身運動控制難度更高的人形機器人,背后都是由同一個Multi-Loco策略在指揮。


圖1 Multi-Loco驅動四種機器人(雙點足、雙輪足、四足、人形)

在草地、斜坡、樓梯等復雜地形上穩定行走

Multi-Loco真正實現了“一腦多形”,展現了穩定的魯棒性和泛化能力。

2

雙管齊下,讓策略兼具泛化性與適應性


那么,這個“機器人通用小腦”是如何煉成的呢?Multi-Loco的核心突破在于一套組合拳:生成式擴散模型(Diffusion Model)+殘差強化學習 (Residual RL)。


圖1 Multi-Loco框架圖解。“運動分析師”(擴散模型,Diffusion Model)離線提煉通用原理,“私人教練”(殘差策略,Residual Policy)在線實時微調

3

生成式擴散模型:洞察全局的“運動分析師”


想象一位頂級的運動分析師,他的任務不是只研究一個運動員,而是同時分析籃球、足球、體操等多個不同項目的運動員。

面臨的挑戰:每一個項目的運動原理、動作要領不同;每個運動員的身材和技術數據也不同。

解決方案:“分析師”使用一種標準化的數據對齊方式(Zero Padding)來處理信息維度的差異,再通過同一個生成式模型,從不同的運動員數據中,抽取不同運動的共性信息。

這并不僅僅是去模仿一個運動員,或是某個單一動作,而是從所有這些不同的運動員和項目中,提煉出關于平衡、協調和力量控制的通用運動原理。這個擴散模型就扮演著“運動分析師”的角色。它通過學習不同構型機器人的運動數據,掌握了機器人在不同運動場景下的基礎規律,形成了一個強大的通用知識庫。

4

殘差強化學習:臨場指揮的“私人教練”


“運動分析師”提供的通用原理雖然非常重要,但針對不同的比賽和具體的運動員,還是需要有針對性的戰術調整,才能讓他們的表現更加出色。

這時,“私人教練”就上場了。在Multi-Loco中,它是一個輕量級的殘差強化學習(Residual RL)模塊。它的任務不是從頭教起,而是在“分析師”給出的通用策略基礎上,根據每一個機器人的實時狀態和運動場景,進行精準的“戰術修正”(即殘差)。

這個“私人教練”會根據機器人的實時表現,比如是否平穩、有沒有跟上目標速度等進行獎勵或懲罰,動態優化動作細節。

“分析師”負責制定宏觀戰略,“私人教練”負責臨場戰術微調。兩者結合,讓Multi-Loco既有強大的泛化能力,又有精準的適應能力。

5

實踐驗證:更快更穩,還會自主領悟新技能


實驗結果證明,Multi-Loco不僅可行,而且性能卓越。


圖3 策略性能對比圖。紫色代表的是使用Single-Robot Diffusion Policy(SR-DP)單一機器人數據訓練的擴散策略,以此為基準,橙色使用的是Cross-Robot Diffusion Policy(CR-DP)多機器人數據訓練的擴散策略,藍色代表的是相應機器人的專家強化學習策略(RL expert),綠色是我們的方法(CR-DP+RA),多機器人數據訓練的擴散策略+殘差強化學習微調。如圖所示,Multi-Loco在所有機器人上都表現更優

對比傳統方法,即通過強化學習方法(PPO)對每個機器人單獨進行訓練的專家策略,Multi-Loco的平均性能提升了10.35%,在雙輪足機器人上的提升最大,達到了13.57%。

除了更快的訓練效率和更高的部署穩定性,在訓練過程中,機器人還出現了“技能涌現”現象。

以雙輪足機器人為例,在使用專家強化學習策略進行單獨訓練時,它只學會了在平坦地形上的移動,遇到臺階就束手無策。但通過Multi-Loco進行訓練,機器人僅靠觀摩其他雙足和人形機器人的訓練數據,就無師自通地學會了“抬腿”這個新技能,從而實現了階梯障礙跨越。


圖4 原本只會平地移動的雙輪足機器人,在通過Multi-Loco結合其他機器人的數據進行訓練(CR-DP)后,展現出了在各類復雜地形的高通過率。而當我們引入“私人教練”,即殘差強化學習(Residual Adaptation)稍加指點后,它在各類復雜地形的表現(右圖綠線)不僅遠優于過去的自己(左圖黃線),更優于強化學習單獨訓練的策略(右圖藍線)

這證明了Multi-Loco在跨形態學習的巨大潛力—通過學習不同機器人的運動數據,機器人之間可以互相“啟發”,學到自己原本學不會的本領。

6

通往“機器人通用AI”的堅實一步


Multi-Loco為解決跨形態機器人統一控制這一核心挑戰提供了一條全新的、高效的路徑,是逐際動力聯合高校及科研機構,在基于強化學習的小腦全身運動控制這一技術策略上的成功探索。它不僅展示了生成式模型與強化學習結合對機器人掌握通用移動能力帶來的增益,也為具身智能“通用驅動”提供了一條可行且高效的進化路徑。

加速開發:無需針對單一機器人形態重新開發控制算法,提升訓練和研發效率。

提升性能:跨形態學習也能解鎖新技能,讓機器人具備更強大的運動泛化潛力

邁向通用:一套運動控制基礎模型可復用于不同形態的機器人,是通往“一個AI驅動所有設備”的通用人工智能的堅實一步。

未來,逐際動力將進一步優化Multi-Loco的能力,通過學習更多不同形態的機器人運動規律,提升算法泛化性和適應性,乃至適配從未預先見過的新形態機器人。


我們期待,機器人像智能手機一樣,輕松“下載”新技能的時代早日到來!

本文作者:深圳逐際動力科技有限公司

閱讀更多內容,歡迎訂購《機器人產業》雜志。

點擊跳轉!圈內人都在看的專家觀點



特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
6歲男孩為躲母親毆打,離家出走22年,長大后才得知母親悲慘人生

6歲男孩為躲母親毆打,離家出走22年,長大后才得知母親悲慘人生

哄動一時啊
2026-04-19 14:38:19
春夏流行這5“鞋子”,搭配褲子、裙子美爆了!

春夏流行這5“鞋子”,搭配褲子、裙子美爆了!

何有強
2026-04-20 22:06:04
辛納突發肩部不適!ATP頂尖球星在法網前紛紛倒下?

辛納突發肩部不適!ATP頂尖球星在法網前紛紛倒下?

網球之家
2026-04-21 23:42:54
心臟協會改口:吃豬油不如植物油?爭議來了

心臟協會改口:吃豬油不如植物油?爭議來了

時光慢郵啊
2026-04-20 16:50:17
漢語犧牲了什么,才成為如今最高效的語言

漢語犧牲了什么,才成為如今最高效的語言

刺頭體育
2026-04-20 15:36:12
周潤發750萬賣出50平米山頂豪宅,雜草叢生,曾叫價1.95億賣不掉

周潤發750萬賣出50平米山頂豪宅,雜草叢生,曾叫價1.95億賣不掉

螃蟹吃瓜攤
2026-04-20 20:15:05
賴清德竄訪不了了,三國突然取消飛航許可

賴清德竄訪不了了,三國突然取消飛航許可

上觀新聞
2026-04-22 06:43:13
手握43個世界冠軍,25歲嫁百億豪門,7年連生4娃,仍被丈夫寵成寶

手握43個世界冠軍,25歲嫁百億豪門,7年連生4娃,仍被丈夫寵成寶

翰飛觀事
2026-04-16 14:36:57
美國終于開始害怕?比稀土更致命王牌出手了,萬斯:中國要冷靜

美國終于開始害怕?比稀土更致命王牌出手了,萬斯:中國要冷靜

混沌錄
2026-04-10 22:53:19
別再造謠傳謠了!警方通報證實:長治萬達廣場墜樓身亡女子獨自翻越欄桿墜落 排除刑事案件!

別再造謠傳謠了!警方通報證實:長治萬達廣場墜樓身亡女子獨自翻越欄桿墜落 排除刑事案件!

閃電新聞
2026-04-21 10:33:26
花1.5萬、燒掉23億Token,CTO讓Claude一周“打穿”Chrome!實測結果:別等Mythos了,現有AI已經“高危”

花1.5萬、燒掉23億Token,CTO讓Claude一周“打穿”Chrome!實測結果:別等Mythos了,現有AI已經“高危”

CSDN
2026-04-21 20:51:49
退休安排有變!公務員彈性延遲退休取消,新方案已確定

退休安排有變!公務員彈性延遲退休取消,新方案已確定

一口娛樂
2026-04-22 05:02:00
林濤卸任國務院副秘書長,已任廈門市委書記(附簡歷)

林濤卸任國務院副秘書長,已任廈門市委書記(附簡歷)

中國城市報
2026-04-21 22:11:52
網友爸爸2年前垃圾堆里撿回72條32GB DDR4內存:如今價值近14萬

網友爸爸2年前垃圾堆里撿回72條32GB DDR4內存:如今價值近14萬

快科技
2026-04-20 10:51:04
閨蜜大婚我隨了5000,她回禮雨傘,看見傘柄刻著地址和6個數字

閨蜜大婚我隨了5000,她回禮雨傘,看見傘柄刻著地址和6個數字

磊子講史
2026-01-23 16:54:49
釋永信“開光”真相大白,過程不堪入目,易中天也被牽連

釋永信“開光”真相大白,過程不堪入目,易中天也被牽連

往史過眼云煙
2026-03-24 17:05:24
女生主動起來有多黏人?網友:這些女的太開放了

女生主動起來有多黏人?網友:這些女的太開放了

帶你感受人間冷暖
2026-01-27 00:20:06
爭議拉滿!前英超裁判怒批:哈蘭德絕殺無效,曼城偷走 3 分

爭議拉滿!前英超裁判怒批:哈蘭德絕殺無效,曼城偷走 3 分

一隅非生
2026-04-21 08:32:56
特朗普稱伊朗已多次違反停火協議

特朗普稱伊朗已多次違反停火協議

財聯社
2026-04-21 19:18:05
紐約尾盤,現貨黃金跌2.12%

紐約尾盤,現貨黃金跌2.12%

每日經濟新聞
2026-04-22 05:28:05
2026-04-22 07:23:00
雷克智能 incentive-icons
雷克智能
智能才是機器之道
1119文章數 5880關注度
往期回顧 全部

科技要聞

創造4萬億帝國、訪華20次,庫克留下了什么

頭條要聞

三國取消飛航許可 賴清德無法竄訪斯威士蘭

頭條要聞

三國取消飛航許可 賴清德無法竄訪斯威士蘭

體育要聞

一到NBA季后賽,四屆DPOY就成了主角

娛樂要聞

宋承炫曬寶寶B超照,宣布老婆懷孕

財經要聞

現實是最大的荒誕:千億平臺的沖突始末

汽車要聞

全新坦克700正式上市 售價42.8萬-50.8萬元

態度原創

親子
時尚
旅游
健康
公開課

親子要聞

才六天的馬寶寶,發這個視頻沒有別的意思,只是想騙你們生女兒而已

頂流復工,已判若兩人

旅游要聞

京城今春“濱水+”玩法迭代

干細胞抗衰4大誤區,90%的人都中招

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版