![]()
ROBOT INDUSTRY
想象一下,一個AI小腦,既能指揮雙足機器人優雅漫步,又能讓四足機器狗敏捷奔跑,還能操控雙輪足機器人進行多地形移動,甚至連復雜的人形機器人也能輕松駕馭。南方科技大學、圣母大學、浙江大學-UIUC聯合學院與逐際動力的最新研究成果,把這個大家夢寐以求的能力實現了。
![]()
你是否想過,為什么一個智能家居App就能同時控制家里所有燈光和家電,但教一個機器人學會走路卻要耗費巨大的時間進行訓練?更別提讓一個AI程序去控制所有機器人了。
傳統上,每一種機器人,因為“身材”(形態)、“骨骼”(關節)和“運動方式”(動力學)都不同,幾乎都需要一個“私人教練”—一個專門為它量身定制的AI模型(控制策略)。這不僅耗時耗力,也限制了機器人技術的泛化和快速發展。
而Multi-Loco打破了這一局限,是邁向“機器人通用AI”目標的重要一步。
1
Multi-Loco:一腦多形,用同一個策略控制多種形態的機器人
![]()
在2025年9月公布的CoRL 2025論文收錄名單中,逐際動力作為聯合科研團隊再有成果入選。本次由南方科技大學、圣母大學、浙江大學-UIUC聯合學院與逐際動力共同完成的研究《Multi-Loco:Unifying Multi-Embodiment Legged Locomotion via Reinforcement Learning Augmented Diffusion》(《基于強化學習的多形態足式機器人運動統一控制框架》),提出了Multi-Loco,一個基于強化學習的多形態足式機器人運動統一控制框架,是一次在跨形態足式機器人運動控制領域的前沿探索與重要突破。
![]()
收錄地址:https://www.corl.org/program
核心目標就一句話:用同一個AI策略,控制多種形態迥異的足式機器人。
如圖1所示,下面有四款構型、步態、運動模式完全不同的足式機器人,從最簡構型的雙點足機器人,到注重移動效率的雙輪足機器人,再到更靈活、系統也更復雜的四足狗和全身運動控制難度更高的人形機器人,背后都是由同一個Multi-Loco策略在指揮。
![]()
圖1 Multi-Loco驅動四種機器人(雙點足、雙輪足、四足、人形)
在草地、斜坡、樓梯等復雜地形上穩定行走
Multi-Loco真正實現了“一腦多形”,展現了穩定的魯棒性和泛化能力。
2
雙管齊下,讓策略兼具泛化性與適應性
![]()
那么,這個“機器人通用小腦”是如何煉成的呢?Multi-Loco的核心突破在于一套組合拳:生成式擴散模型(Diffusion Model)+殘差強化學習 (Residual RL)。
![]()
圖1 Multi-Loco框架圖解。“運動分析師”(擴散模型,Diffusion Model)離線提煉通用原理,“私人教練”(殘差策略,Residual Policy)在線實時微調
3
生成式擴散模型:洞察全局的“運動分析師”
![]()
想象一位頂級的運動分析師,他的任務不是只研究一個運動員,而是同時分析籃球、足球、體操等多個不同項目的運動員。
面臨的挑戰:每一個項目的運動原理、動作要領不同;每個運動員的身材和技術數據也不同。
解決方案:“分析師”使用一種標準化的數據對齊方式(Zero Padding)來處理信息維度的差異,再通過同一個生成式模型,從不同的運動員數據中,抽取不同運動的共性信息。
這并不僅僅是去模仿一個運動員,或是某個單一動作,而是從所有這些不同的運動員和項目中,提煉出關于平衡、協調和力量控制的通用運動原理。這個擴散模型就扮演著“運動分析師”的角色。它通過學習不同構型機器人的運動數據,掌握了機器人在不同運動場景下的基礎規律,形成了一個強大的通用知識庫。
4
殘差強化學習:臨場指揮的“私人教練”
![]()
“運動分析師”提供的通用原理雖然非常重要,但針對不同的比賽和具體的運動員,還是需要有針對性的戰術調整,才能讓他們的表現更加出色。
這時,“私人教練”就上場了。在Multi-Loco中,它是一個輕量級的殘差強化學習(Residual RL)模塊。它的任務不是從頭教起,而是在“分析師”給出的通用策略基礎上,根據每一個機器人的實時狀態和運動場景,進行精準的“戰術修正”(即殘差)。
這個“私人教練”會根據機器人的實時表現,比如是否平穩、有沒有跟上目標速度等進行獎勵或懲罰,動態優化動作細節。
“分析師”負責制定宏觀戰略,“私人教練”負責臨場戰術微調。兩者結合,讓Multi-Loco既有強大的泛化能力,又有精準的適應能力。
5
實踐驗證:更快更穩,還會自主領悟新技能
![]()
實驗結果證明,Multi-Loco不僅可行,而且性能卓越。
![]()
圖3 策略性能對比圖。紫色代表的是使用Single-Robot Diffusion Policy(SR-DP)單一機器人數據訓練的擴散策略,以此為基準,橙色使用的是Cross-Robot Diffusion Policy(CR-DP)多機器人數據訓練的擴散策略,藍色代表的是相應機器人的專家強化學習策略(RL expert),綠色是我們的方法(CR-DP+RA),多機器人數據訓練的擴散策略+殘差強化學習微調。如圖所示,Multi-Loco在所有機器人上都表現更優
對比傳統方法,即通過強化學習方法(PPO)對每個機器人單獨進行訓練的專家策略,Multi-Loco的平均性能提升了10.35%,在雙輪足機器人上的提升最大,達到了13.57%。
除了更快的訓練效率和更高的部署穩定性,在訓練過程中,機器人還出現了“技能涌現”現象。
以雙輪足機器人為例,在使用專家強化學習策略進行單獨訓練時,它只學會了在平坦地形上的移動,遇到臺階就束手無策。但通過Multi-Loco進行訓練,機器人僅靠觀摩其他雙足和人形機器人的訓練數據,就無師自通地學會了“抬腿”這個新技能,從而實現了階梯障礙跨越。
![]()
圖4 原本只會平地移動的雙輪足機器人,在通過Multi-Loco結合其他機器人的數據進行訓練(CR-DP)后,展現出了在各類復雜地形的高通過率。而當我們引入“私人教練”,即殘差強化學習(Residual Adaptation)稍加指點后,它在各類復雜地形的表現(右圖綠線)不僅遠優于過去的自己(左圖黃線),更優于強化學習單獨訓練的策略(右圖藍線)
這證明了Multi-Loco在跨形態學習的巨大潛力—通過學習不同機器人的運動數據,機器人之間可以互相“啟發”,學到自己原本學不會的本領。
6
通往“機器人通用AI”的堅實一步
![]()
Multi-Loco為解決跨形態機器人統一控制這一核心挑戰提供了一條全新的、高效的路徑,是逐際動力聯合高校及科研機構,在基于強化學習的小腦全身運動控制這一技術策略上的成功探索。它不僅展示了生成式模型與強化學習結合對機器人掌握通用移動能力帶來的增益,也為具身智能“通用驅動”提供了一條可行且高效的進化路徑。
加速開發:無需針對單一機器人形態重新開發控制算法,提升訓練和研發效率。
提升性能:跨形態學習也能解鎖新技能,讓機器人具備更強大的運動泛化潛力
邁向通用:一套運動控制基礎模型可復用于不同形態的機器人,是通往“一個AI驅動所有設備”的通用人工智能的堅實一步。
未來,逐際動力將進一步優化Multi-Loco的能力,通過學習更多不同形態的機器人運動規律,提升算法泛化性和適應性,乃至適配從未預先見過的新形態機器人。
![]()
我們期待,機器人像智能手機一樣,輕松“下載”新技能的時代早日到來!
本文作者:深圳逐際動力科技有限公司
閱讀更多內容,歡迎訂購《機器人產業》雜志。
點擊跳轉!圈內人都在看的專家觀點
![]()
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.