網易首頁 > 網易號 > 正文 申請入駐

一塊GPU訓練,15分鐘內實現仿真實境遷移,人形機器人端到端控制新策略來了!

0
分享至

大數據文摘受權轉載自頭部科技

文丨譚梓馨

大規模并行仿真已將機器人強化學習(RL)的訓練時間從數天縮短至數分鐘。

然而,由于高維性、域隨機化等因素帶來的挑戰,在人形機器人控制方面實現快速且可靠的仿真實境遷移(Sim2Real)仍面臨困難。


近日,Amazon FAR團隊提出一種基于離策略強化學習算法(即FastSAC與 FastTD3)的簡潔實用方案,僅需單塊RTX 4090 GPU,即可在15分鐘內快速訓練出人形機器人移動控制策略。

研究人員在宇樹G1(Unitree G1)和加速進化T1(Booster T1)機器人上驗證了該方案的有效性。在強域隨機化條件下,如動力學隨機化、崎嶇地形、推力擾動等,可實現端到端的人形機器人控制策略快速學習,同時也支持全身人體運動跟蹤策略的快速訓練,該方案開源發布在Holosoma代碼庫中。

極簡策略,給訓練提提速

仿真實境遷移(Sim2Real)開發本質上是一個迭代過程:在仿真環境中訓練策略并部署到硬件后,會暴露出未建模動力學、感知誤差等域差異問題。

隨后需通過改進仿真環境修正這些差異,這就要求重新訓練整個流程,由于這類迭代需持續至策略達到可靠水平,因此快速仿真成為保障迭代可行性的關鍵前提。

盡管現代并行仿真器具備高效特性,但這些迭代周期在實際應用中仍存在較高成本,尤其適用于人形機器人等高維系統時,而想要實現策略向真實世界的魯棒遷移,訓練時間又要重回數小時級別。

因此,盡管并行仿真在原始吞吐量上實現了顯著提升,但人形機器人領域控制實現快速、可靠的仿真實境遷移迭代仍是一項挑戰。


這項研究提出的FastSAC and FastTD3方案,將人形機器人仿真實境遷移的迭代時間重新縮短至分鐘級。
FastSACFastTD3是流行的離策略強化學習算法SAC和TD3的高性能變體,針對大規模并行仿真訓練進行了優化。
該方案采用大規模并行仿真對FastSAC與FastTD3智能體進行訓練。研究發現,增加并行環境數量的效果在具有挑戰性的全身運動跟蹤任務中尤為顯著,此外,在每個仿真步驟中執行更多梯度更新步驟通常能加快訓練收斂速度。


訓練SAC或TD3等離策略強化學習算法時,一項核心挑戰是為其雙曲正切(Tanh)策略設置合理的動作邊界,研究人員提出一種簡潔技術:在使用比例-微分(PD)控制器時,基于機器人的關節限位來設定動作邊界。
他們計算出每個關節的限位與默認位置之間的差值,并將該差值作為對應關節的動作邊界,實驗表明,該方法可有效降低FastSAC與FastTD3訓練過程中動作邊界的調參需求。
人形機器人移動控制與全身控制的獎勵函數設計,傳統上依賴復雜的獎勵塑形技術,通常包含20余項獎勵項,這項研究證實:通過大幅簡化的目標函數(不足10項獎勵項),即可讓機器人產生魯棒且自然的行為。


具體而言,該方案遵循極簡獎勵設計理念——僅在必要時添加獎勵項,并力求在不同算法與機器人之間保持近乎一致的獎勵集合,設計目標并非強制機器人遵循特定運動模式,而是在保留行為多樣性的前提下,為魯棒移動控制與全身控制提供足夠的約束結構。


更少的獎勵項還能簡化超參數調優過程,支持快速遍歷超參數空間,這對于仿真實境遷移的迭代效率至關重要。
而針對全身運動跟蹤任務,研究人員還發現,以速度推力形式引入外部擾動,可進一步提升仿真實境遷移的魯棒性。

時間雖短,但效果很好


研究人員在單塊RTX 4090 GPU上,僅用15分鐘便完成了端到端的完整人形機器人移動控制策略訓練——訓練過程涵蓋動力學隨機化、崎嶇地形、推力擾動等強域隨機化條件,并融入自動動作頻率學習機制。

來看看實訓效果:


此外,該離策略強化學習方案具備優異的可擴展性,能夠顯著加速全身運動跟蹤策略的訓練——在4塊L40s GPU、16384個并行環境的配置下,FastSAC與FastTD3算法在相同實驗條件下,學習完成完整舞蹈動作序列的速度也顯著快于PPO算法。

而且,雖然只接受了15分鐘的訓練,但機器人已能穩定地站立和行走,并且能夠抵抗推力擾動。


FastSAC與FastTD3同樣能夠快速訓練宇樹G1人形機器人實現人體運動跟蹤,包括持續時間超過2分鐘的長序列舞蹈動作,其性能效果與主流的PPO算法相當或更優。


亞馬遜發力機器人

值得關注的是,亞馬遜FAR團隊同步開源了Holosoma,這是一個綜合軟件框架,旨在簡化訓練和部署人形機器人的復雜流程。

Holosoma源自希臘語,意為“全身”,通過在單個訓練代碼庫中支持多個仿真后端來解決各種仿真環境之間的脫節,以及“后端”碎片化等問題。

近期報道顯示,亞馬遜的內部目標是在未來幾年內實現75%的運營自動化,在2033年前可能會減少雇傭超過60萬名人類員工,同時還能將運營效率翻一番,要實現這一目標,就需要能夠適應非結構化環境并操作各種物體的機器人——而這些問題是傳統的、硬編碼的自動化方式無法解決的。


FAR團隊目前匯聚了不少核心華人學者,Rocky Duan目前為FAR研究負責人,此外還匯聚了Peter Chen、Tianhao Zhang、Liang-Chieh Chen、Ziqi Lu等頂尖華人研究員。

FAR團隊認為,未來將離策略強化學習與人形機器人學習領域的最新進展融入該方案,有望進一步推動該領域的技術前沿。

GPU 訓練特惠!

H100/H200 GPU算力按秒計費,平均節省開支30%以上!

掃碼了解詳情?

點「贊」的人都變好看了哦!

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
買車的好時機來了!BBA集體大降價:部分車型直降27萬

買車的好時機來了!BBA集體大降價:部分車型直降27萬

快科技
2026-04-22 13:16:07
伊朗議會要員:伊朗已決定繼續與美國進行談判

伊朗議會要員:伊朗已決定繼續與美國進行談判

新京報
2026-04-20 15:37:11
美媒:中國簡直“逆天”!竟想用電磁力,把月球上的氦-3運回地球

美媒:中國簡直“逆天”!竟想用電磁力,把月球上的氦-3運回地球

阿庫財經
2026-04-23 07:05:04
我需要你:這句話,我等了太久才敢說出口

我需要你:這句話,我等了太久才敢說出口

疾跑的小蝸牛
2026-04-23 19:37:33
八千里路云和月:比朱管家還要神秘,馬江天是軍統還是地下黨?

八千里路云和月:比朱管家還要神秘,馬江天是軍統還是地下黨?

流云天下
2026-04-23 18:15:02
感覺全社會都開始極限省錢了…

感覺全社會都開始極限省錢了…

深度報
2026-04-23 22:54:00
俄軍實戰證明輕機槍不足,中國為何重裝7.62毫米機槍

俄軍實戰證明輕機槍不足,中國為何重裝7.62毫米機槍

點燃好奇心
2026-04-24 01:49:33
廣東季后賽賽程出爐!4月28日附加賽首戰,杜鋒或迎徐昕正面挑戰

廣東季后賽賽程出爐!4月28日附加賽首戰,杜鋒或迎徐昕正面挑戰

多特體育說
2026-04-23 23:07:54
明明拿不出三十萬現金,為何滿街都是三十萬的車?背后真相太現實

明明拿不出三十萬現金,為何滿街都是三十萬的車?背后真相太現實

平說財經
2026-03-12 23:04:24
投胎是門技術活!美國富婆希爾頓奢侈育兒,給兩幼子全身穿滿古馳

投胎是門技術活!美國富婆希爾頓奢侈育兒,給兩幼子全身穿滿古馳

世界王室那些事
2026-04-22 17:05:55
張檬小五帶一歲兒子春游,一家三口顏值拉滿,溫馨感拉滿

張檬小五帶一歲兒子春游,一家三口顏值拉滿,溫馨感拉滿

娘娘不想上班
2026-04-22 21:48:30
劃清界限!高云翔憔悴發聲撇清張婉婷,不留情面,一句話暗含深意

劃清界限!高云翔憔悴發聲撇清張婉婷,不留情面,一句話暗含深意

阿握聊事
2026-04-24 00:23:37
不是玄學:朋友是最好的藥方!科學揭秘大腦里的“抗癌開關”

不是玄學:朋友是最好的藥方!科學揭秘大腦里的“抗癌開關”

一節生姜
2026-04-23 17:40:44
人窮能卑微到什么地步?網友說:一個男人兩千塊買了我三個晚上!

人窮能卑微到什么地步?網友說:一個男人兩千塊買了我三個晚上!

黯泉
2026-04-14 12:13:04
被指“逼迫旗下主播跟鱷魚同一個魚缸”,千萬粉絲博主“夜巴黎”遭封禁,知情人:視頻是去年的直播錄屏

被指“逼迫旗下主播跟鱷魚同一個魚缸”,千萬粉絲博主“夜巴黎”遭封禁,知情人:視頻是去年的直播錄屏

紅星新聞
2026-04-23 19:33:36
男子偷偷做親子鑒定,發現養了3年孩子非親生,全網寶爸曬娃求鑒

男子偷偷做親子鑒定,發現養了3年孩子非親生,全網寶爸曬娃求鑒

譚談社會
2026-04-23 00:59:34
這張照片是2014年張雪峰和他的妻子李麗婧,在清華大學拍的結婚照

這張照片是2014年張雪峰和他的妻子李麗婧,在清華大學拍的結婚照

喜歡歷史的阿繁
2026-04-11 06:47:10
無才無德、裝瘋賣傻、一肚子草包,是誰捧紅了這些跳梁小丑?

無才無德、裝瘋賣傻、一肚子草包,是誰捧紅了這些跳梁小丑?

蹲坑看世界
2026-04-22 23:00:21
湖北一男子創業失敗負債百萬,轉行外賣騎手兩年還清40萬元,經常“不聽勸”堅持高強度跑單,觸發防疲勞機制被強制下線240次

湖北一男子創業失敗負債百萬,轉行外賣騎手兩年還清40萬元,經常“不聽勸”堅持高強度跑單,觸發防疲勞機制被強制下線240次

三湘都市報
2026-04-23 23:05:41
歷史首次!王毅出訪東南亞,這次身邊多了一個人,文武齊出定乾坤

歷史首次!王毅出訪東南亞,這次身邊多了一個人,文武齊出定乾坤

書紀文譚
2026-04-23 23:12:13
2026-04-24 02:56:49
大數據文摘 incentive-icons
大數據文摘
專注大數據,每日有分享!
6852文章數 94541關注度
往期回顧 全部

科技要聞

馬斯克喊出"史上最大產品",但量產難預測

頭條要聞

以色列:只要美國同意 將刺殺伊朗最高領袖

頭條要聞

以色列:只要美國同意 將刺殺伊朗最高領袖

體育要聞

給文班剃頭的馬刺DJ,成為NBA最佳第六人

娛樂要聞

王大陸因涉黑討債被判 女友也一同獲刑

財經要聞

普華永道賠償10億 恒大股東見到"回頭錢"

汽車要聞

預售30.29萬起 嵐圖泰山X8配896線激光雷達

態度原創

家居
游戲
健康
藝術
數碼

家居要聞

浪漫協奏 法式風格

任天堂NS2銷量4倍碾壓PS5!差距懸殊 索尼難挽頹勢

干細胞如何讓燒燙傷皮膚"再生"?

藝術要聞

吉達塔蓋到第100層,“它是沙特唯一能按期完成的大項目”

數碼要聞

799元!小米推出米家無線吸塵器4C:170AW大吸力、75分鐘長續航

無障礙瀏覽 進入關懷版