網易首頁 > 網易號 > 正文申請入駐

《現代電影技術》｜吳振等：基于具身智能的舞蹈人形機器人系統框架研究

2025-12-05 11:59:02　來源: 電影技術微刊

北京舉報

分享至

本文刊發于《現代電影技術》2025年第11期

專家點評

具身智能人形機器人研究是當前人工智能的前沿領域，旨在打造適配人類環境、能替代體力勞動的通用具身智能體，具有重要的理論意義和實際應用價值。其核心技術涵蓋雙足動態運動、全身協調控制、多模態感知融合以及高密度能源系統等，但動態穩定性與動作協調性仍極具挑戰。近年來，舞蹈人形機器人逐漸進入人們的視野，比如宇樹科技的舞蹈人形機器人Unitree H1在春節聯歡晚會完成了令人印象深刻的扭秧歌表演。與通用人形機器人相比，舞蹈人形機器人面臨更多的技術挑戰，比如音樂與動作的精準同步；藝術性、表現力、情感傳達等。具身智能是人工智能領域非常活躍的一個重要分支，通過物理實體與環境實時交互，實現感知、認知、決策和行動一體化?！痘诰呱碇悄艿奈璧溉诵螜C器人系統框架研究》一文提出一種基于具身智能的舞蹈人形機器人系統框架，通過多步運動處理和自適應運動追蹤，增加對機身線速度內部潛在狀態的估計器和探索性好奇心獎勵機制訓練人形機器人掌握復雜的英歌舞。該框架提升了機器人在復雜舞蹈動作中的學習與表現能力，而且在舞蹈動作的穩定性與自然性方面有一定的突破，為影視創作、藝術展演與人機交互等領域提供了新的技術手段。

—— 劉世光

教授

天津大學計算機科學與技術學院博士生導師

【項目信息】2024年北京高等教育本科教學改革創新項目“人工智能編舞及其舞臺視覺設計方法研究”（0625013）。

作者簡介

吳振

王文強

北京舞蹈學院副教授，主要研究方向：藝術與科技。

松延動力（北京）科技有限公司算法副總裁，主要研究方向：機器人運動控制。

崔文昊

覃幫羽

王文強

松延動力（北京）科技有限公司算法工程師，主要研究方向：機器人運動控制。

北京舞蹈學院教授，主要研究方向：舞臺藝術設計。

周立新

摘要

基于具身智能的舞蹈人形機器人通過模仿人類動作掌握舞蹈技能，但即使經過獎勵和課程設計，現有算法也僅能追蹤平滑、低速的人類運動。本文提出一種舞蹈人形機器人系統框架，在基于物理的人形運動控制（PBHC）方法基礎上，通過多步運動處理和自適應運動追蹤，增加對機身線速度內部潛在狀態的估計器（Estimator）和探索性好奇心獎勵（Curiosity Reward）機制，訓練人形機器人掌握復雜的英歌舞。實驗成功將動作數據部署到松延動力N2人形機器人上，N2在現實場景中展示的步態和舞蹈動作與模擬器中的圖像保持了高度一致性。研究表明，該框架不僅提升了機器人在復雜舞蹈動作中的學習與表現能力，還在舞蹈動作的穩定性與自然性方面取得了突破，為舞蹈機器人在影視創作、藝術展演與人機交互領域的應用提供了新的技術路徑。

關鍵詞

具身智能；舞蹈；人形機器人；人形運動控制

1引言

具身（Embodiment) 最初的概念是“身體對心靈有意義”，指支持感覺和運動的物理身體[1]。具身智能(Embodied Intelligence, EI) 是人工智能（AI）的一個子領域，指專注于與物理環境交互的智能體，其通過物理實體與環境實時交互，實現感知、認知、決策和行動一體化，即感覺運動耦合和情境智能。與單純的被動觀察不同，EI智能體對其環境采取行動并從反應中學習[2]。人形機器人通常被定義為具有人類外觀或擬人化特征的機器人[3]。憑借其類人的形態結構，人形機器人被視為具身智能體的理想載體。然而，相較于四足機器人，人形機器人因重心較高、自由度更大以及體型更為龐大，在運動技能學習與控制方面面臨更大挑戰[4]。本文所研究的人形機器人屬于智能型機器人，具備具身智能，能夠復制人類的形態與功能，并在執行不同任務時模仿多樣化的人類行為[5]。隨著技術的進步，機器人開始逐漸涉足如舞蹈表演這類更復雜和藝術化的任務，并有望作為“演員”參與電影表演，承擔部分特技動作，舞蹈人形機器人研究應運而生。

本文借鑒基于物理的人形運動控制（Physics?Based Humanoid motion Control，PBHC）[6]方法，在該方法基礎上，加入機身線速度內部潛在狀態的估計器（Estimator），可有效解決人形機器人在舞蹈動作執行過程中無法完成抬腿和劇烈抖動的技術難題；同時，通過在獎勵機制中引入探索性好奇心獎勵（Curiosity Reward），促進人形機器人在訓練過程中加速策略的探索，從而有效提升其對專家數據動作的學習能力。該框架應用于松延動力（北京）科技有限公司（以下簡稱“松延動力”）N2人形機器人的訓練與部署，使其通過模仿專業演員的表演動作具備了穩定且富有表現力的舞蹈表演效果。

2研究背景

當前，舞蹈人形機器人正逐漸成為展演領域的重要技術形態。2024年春節聯歡晚會上，宇樹 H1 機器人完成了扭秧歌表演；2025年8月于北京舉辦的2025世界人形機器人運動會亦將機器人單機舞蹈與群舞項目納入正式賽事。追溯其歷史淵源，早在1952年，華特迪士尼公司即設立幻想工程（Imagineering）研發部門，并通過自動機（Automatronics）等系列計劃推動智能表演機器人研究，其中包括能夠替代人類完成高難度空中特技表演的“超級英雄特技”（Stuntronics）機器人[7]。此外，雙足機器人 Blue 已在游樂園環境中實現連續 10 小時無跌倒運行，其兼具表現力動作與穩定動態移動的技術特征，使其能夠與觀眾進行有效交互[8]。

機器人學界普遍認為，使機器人掌握更多動作能力對于推動該領域的發展具有重要意義[9]。自20世紀90年代以來，強化學習（Reinforcement Learning, RL）與模仿學習（Imitation Learning, IL）已成為機器人研究中取得顯著成果的兩類主要機器學習（ML）方法[10]。其中，強化學習是一種通過智能體與環境交互來學習最優決策策略的機器學習范式[11]，在以最少先驗知識教授人形機器人基本運動技能方面表現出突出的效果。然而，當獎勵信號較弱時，探索過程往往會導致不自然的步態，從而引發高能耗與機械磨損，進而對實際部署造成限制。模仿學習是一類通過模仿專家行為來訓練智能體的機器學習方法[12]。其側重于從專家行為數據中提取有價值的信息〔本文利用動作捕捉（Motion Capture）技術獲取專家行為數據〕，并結合分類或回歸等機器學習技術對模型進行訓練，使其再現專家行為。模仿學習的主要優勢在于數據效率較高，可充分利用已有專家行為數據，在有限樣本條件下快速獲得具備基本行為能力的模型，從而使機器人能夠較快掌握復雜動作。然而，其局限性在于高度依賴專家演示，且所學技能往往難以泛化至未包含于演示中的新情境。

與在游戲或動畫影像純數據虛擬環境中的模擬相比，機器人在物理世界中需要同時處理感知與行動問題，從而使任務復雜性顯著增加，并面臨具有本質差異的挑戰。

強化學習在位移運動（Locomotion）任務中，仿真訓練和真實世界部署的最大差異主要體現在環境、硬件和訓練部署3方面。在環境方面，仿真環境的物理屬性和干擾因素相對簡化且穩定，而真實世界中物理參數復雜多變且存在大量不可預測的干擾。硬件方面，每臺真實機器人都存在制造誤差、零部件磨損以及傳感器精度受限等問題；而仿真環境中，每個零部件執行期都是精密、準確、零公差的，二者存在較大差異。在訓練與部署上，仿真訓練樣本效率高、試錯成本低，但策略直接遷移到真實世界時，由于環境和硬件差異，常面臨性能下降和仿真到現實差距（Sim?to?Real Gap）的挑戰。因此，在舞蹈人形機器人動作訓練中，通常采用模仿學習的方法，并探索利用少量真實數據對仿真訓練進行校準，以提升物理逼真度，縮小機器人在仿真與現實間的性能差距[13]。

近年來，動作捕捉系統與動作生成方法取得進展， AIST++ 等涵蓋人類舞蹈并附帶文本描述的大規模舞蹈動作數據集的發布，使人形機器人在全身控制與復雜舞蹈模仿方面展現出廣闊的發展前景[14]。然而，該領域仍面臨多重挑戰：其一，傳統人形機器人訓練方法雖能支持走路、揮手等低速、平滑動作的模仿，但在復雜高速舞蹈動作中效率較低，通常一次僅能穩定訓練約10 s甚至更短的動作片段；其二，人類演員的動作序列往往與人形機器人在關節約束、自由度（DoF）分布及動力學特性上存在差異，易出現違反關節或穩定性約束的情況，導致物理維度的不可行，從而產生較大誤差、動作失敗乃至跌倒。此外，現有方法普遍缺乏自適應的誤差容忍機制，進一步限制了其在真實舞蹈表演場景中的應用。

3基于具身智能的舞蹈人形機器人系統

3.1系統框架

在2025世界人形機器人運動會上，北京舞蹈學院與松延動力組成聯合代表隊參加了單機舞蹈表演賽事，選用松延動力N2人形機器人[15]，其身高1.2 m，體重30 kg，外形相對小巧，具18個自由度用于控制，每條手臂具4個自由度，每條腿具5個自由度，最大關節輸出扭矩可達 200 N·m。

為提升人形機器人在高動態、復雜全身舞蹈動作模仿與表演中的穩定性，研究團隊在對N2的英歌舞訓練任務中引入PBHC方法，以彌合仿真到現實的差距。在此基礎上，研究團隊提出的改進框架（圖1）包含3個核心模塊：（1）使用動作捕捉提取和處理動作；（2）基于最佳追蹤因子的自適應運動追蹤；（3）強化學習訓練框架和仿真到現實的部署。

圖1　總體框架圖

研究團隊通過兩階段框架來應對英歌舞中快速大幅運動帶來的挑戰。（1）在運動處理階段使用光學動作捕捉技術從演員舞蹈表演中提取動作，建立基于物理的指標來評估人體模型的物理量，從而過濾超出人形機器人物理極限的運動。之后，計算運動的接觸掩碼（Contact Masks）進行運動校正，使用逆向運動學（Inverse Kinematics, IK）將處理后的運動重映射到人形機器人上。（2）在運動模仿階段借鑒自適應運動追蹤機制通過追蹤因子調整追蹤獎勵，根據追蹤誤差調整追蹤因子以適應不同的運動。隨后，制定雙層優化(Bi?level Optimization, BLO) [16]來推導最優因子，并設計了一種自適應更新規則，該規則在線估計追蹤誤差，在訓練過程中動態優化追蹤因子。

基于以上框架，研究團隊設計了一種用于策略優化的非對稱演員-評論家（Actor?Critic）架構。演員（Actor）完全依賴于局部觀測，即決策時只使用人形機器人能實時感知到的局部傳感數據，而不依賴于全局或額外信息，從而保證策略能在真實環境中落地；評論家（Critic）則采用了獎勵向量化技術，利用特權信息來改進值估計。另外，我們在此基礎上增加了對機身線速度內部潛在狀態的估計器和探索性好奇心獎勵機制。

3.2 驗證實驗

基于具身智能的舞蹈人形機器人系統框架驗證實驗選取廣東汕頭、潮州、揭陽、汕尾及福建漳州等地區的英歌舞作為研究對象，并對舞蹈動作進行適當改編。為保證動作數據的準確性，邀請與人形機器人身高相近的演員完成表演，并利用光學動作捕捉技術采集相關數據（圖2）。隨后，對采集數據進行濾波處理，并重定向至 N2骨架進行可視化，以檢驗其是否符合預期動作表現；若結果不符合要求，則對動作進行修正；若符合要求，則進入強化學習訓練環節，并通過仿真模擬進一步驗證動作效果。若仿真結果仍未達到預期，則再次調整動作；若符合標準，則開展人形機器人實機適配與驗證。最終，經多輪確認與優化，人形機器人能實現穩定且富有表現力的舞蹈表演。

圖2　研究團隊對英歌舞動作進行簡化，通過光學動作捕捉技術進行數據采集

具體訓練流程（圖3）可概括為以下4個階段：（1）準備階段，研究團隊對英歌舞動作進行簡化，并對人形機器人無法完成的部分進行修改，最終設計出一段時長約 1 分 30 秒的動作序列；（2）仿真階段，在強化學習的物理仿真環境中對舞蹈動作及獎勵機制進行建模，使人形機器人能在虛擬環境中逐步掌握英歌舞動作模式；（3）實機階段，將訓練結果遷移至人形機器人進行適配與驗證；（4）優化階段，在動作確認無誤后，對整體動作序列進行集中優化。

圖3　人形機器人英歌舞訓練流程

3.3 訓練方法

（1）創建公式。研究團隊將運動模仿問題公式化為一個目標條件強化學習問題，其數學建模為馬爾可夫決策過程，即：

M=（S, A, S

ref

,γ, r, P

式（1）中，

S

ref

分別表示人形機器人和參考運動的狀態空間；

A

為人形機器人的動作空間；

為折扣因子（Discount Factor），用于控制未來獎勵的重要性，取值范圍為0<

r

是由運動追蹤和正則化獎勵組成的混合獎勵函數；

P

表示依賴于人形機器人形態和物理約束的狀態轉移函數。

（2）參考運動處理。SMPL（Skinned Multi?Person Linear）模型[18]為人體運動提供了一種通用表示形式。研究團隊首先利用動作捕捉技術提取并處理動作數據，并將其轉換為SMPL格式的運動序列。隨后，通過逆向運動學方法將該序列重新映射至N2，從而生成可用于運動追蹤的參考動作。

（3）改進PBHC方法。首先，生成的運動序列通過基于物理的指標進行篩選；隨后，將精煉后的動作序列重映射至N2。在訓練期間，利用接觸掩碼進行落腳點的獎勵設計，幫助人形機器人學會在應該落地的時刻落地，在應該騰空的時刻保持騰空；最終得到的動作軌跡作為強化學習訓練的參考，并部署于真實N2。在此過程中，額外引入了機身線速度內部潛在狀態的估計器和探索性好奇心獎勵，以提升表演的流暢性與穩定性，并有效消除動作抖動、站立不穩等不良狀態。

（4）好奇心獎勵機制。為鼓勵人形機器人探索，多樣化技能的獲取需要人形機器人在不同關節角度空間中進行充分試探。然而，簡單的預定義獎勵函數難以全面刻畫這種多樣性。因此，研究團隊引入探索性好奇心獎勵，引導人形機器人自主探索未見的狀態-動作空間。具體而言，除了任務獎勵

r

，還將好奇心獎勵

r

c

融入價值函數，以促進更高效的探索與學習。

3.3.1 運動處理路徑

在訓練人形機器人表演英歌舞的過程中，研究團隊提出了一條運動處理路徑，用于提取和轉換舞蹈動作，以實現人形機器人的運動追蹤。該路徑包括以下4個步驟，以確保生成的動作在物理上合理且能有效遷移至人形機器人平臺。

（1）采用光學動作捕捉技術采集舞蹈數據并轉換為SMPL格式

使用光學動作捕捉系統（Optical Motion Capture System）對舞者進行全身三維動作數據采集。該系統通過在舞者身體關鍵部位布設反光標記點，并利用多臺高速相機同步追蹤這些標記點的空間位置，獲得高精度的關節運動軌跡。隨后，采用人體參數化模型 SMPL對捕捉到的動作數據進行擬合與優化，將離散的標記點坐標轉化為具有骨骼與表面網格結構的統一運動表示，最終得到 SMPL 格式的動作估計序列，為后續的物理過濾與人形機器人映射奠定基礎。

（2）基于物理學的運動過濾

基于物理學的運動過濾是指結合人形機器人自身的物理特性對動作捕捉數據進行約束與調整，使其在物理上可執行。該過程旨在消除不符合動力學規律的動作，如滑步、穿透、關節超限及力矩超限等。具體包括兩個環節：其一，物理過濾，即通過檢測質心（Center of Mass, CoM）與壓力中心（Center of Pressure, CoP）的距離，判斷并剔除不穩定或不可實現的動作；其二，接觸修正，即識別腳部與地面的接觸點，對漂浮或腳滑等不合理現象進行校正，從而獲得物理上合理且可遷移的運動數據。

（3）基于接觸感知的運動校正

（4）運動重定向

采用基于逆向運動學的重定向方法，將處理后的 SMPL 格式動作映射至 N2的骨架結構。該方法通過構建一個可微分的優化問題，在保證關節限制的前提下，使末端執行器的運動軌跡盡可能與參考動作對齊。具體流程（圖4）包括：首先，利用動作捕捉系統采集人類舞者的運動數據，并將其作為N2的參考運動；其次，識別膝關節、肘關節等關鍵點，并對源運動進行尺度變換以匹配人形機器人的體型比例；隨后，應用逆向運動學求解關節角度位置，實現動作的合理映射；最后，在仿真環境中播放生成的動作文件，以驗證身體運動的對稱性和執行效果。

圖 4　從專家數據（左）運動重定向到N2（右）

3.3.2 自適應運動追蹤

在PBHC中，獎勵函數采用指數形式的追蹤獎勵，由兩部分組成：（1）任務特定獎勵，用于強制追蹤參考運動；（2）正則化獎勵，用于促進整體動作的穩定性和平滑性。其中，對齊關節狀態與剛體狀態的追蹤均采用指數形式，其獎勵函數定義為：

r（x

=exp（-x/σ

（6）

式（6）中，

表示追蹤誤差，

為追蹤因子，用于控制誤差容忍度。當

遠大于

的典型范圍時，獎勵接近1，且對誤差變化不敏感；當

遠小于

的典型范圍時，獎勵趨近于0，導致訓練過于苛刻。合理選擇

可增強追蹤效果并提高精度。為確定最佳

，本文基于簡化的運動追蹤模型展開分析。

圖5　自適應機制中追蹤因子的閉環調整

3.3.3 非對稱演員-評論家RL訓練框架

3.4 效果測試

人形機器人在現實環境中展現出的一系列高動態技能，驗證了其在運動控制與模仿學習方面的先進能力。圖6中，人形機器人在現實場景中實現的步態與舞蹈動作，與模擬器中的圖像保持了高度一致性。例如，在英歌舞的代表性動作“轉槌花”的起勢環節中，由于N2的手腕結構未配置電機，無法完成槌棒在手中的內旋動作，因此對該動作進行了適當簡化。具體而言，人形機器人雙手緊握英歌棒，由彎腰姿態過渡至直立：首先屈膝，下肢動作表現為左腳向上蹬、右腳向后抬，上肢同時完成右臂上舉；隨后動作交替進行，即右腳向上蹬、左腳向后抬，同時左臂上舉。

圖6　N2在真實世界中穩定地跳英歌舞（上），動作與模擬器中的圖像（下）高度一致

這一過程表明，人形機器人能夠學習包括英歌舞在內的高動態、全身協調技能，而不僅局限于簡單的動作模仿。在訓練與測試過程中，我們不斷對控制策略進行優化。例如，早期實驗發現N2在執行彎腰后退動作時無法抬腳，而表現為原地靜止。通過在訓練框架中引入接觸掩碼，該問題得以解決。同時，我們還觀察到人形機器人在舞蹈表演中出現頻繁抖動。為此在訓練框架中加入狀態估計器，顯著減少了抖動現象。

為進一步評估所提出策略的追蹤性能，我們對英歌舞動作進行了10次重復實驗，并基于機載傳感器數據計算相應的性能指標（機身位姿以及各關節的角度和速度）。實驗結果顯示，現實環境中的評估指標與在仿真平臺Isaac Gym中獲得的指標高度一致，驗證了訓練框架在跨虛擬與現實場景中的有效性與穩定性。

4總結與思考

研究團隊在借鑒 PBHC 方法的基礎上，對舞蹈動作進行了過濾與修正，并采用自適應追蹤機制以動態調整誤差容忍度，從而改進強化學習架構，以提升訓練穩定性并縮小從仿真到現實的差距。然而，在人形機器人舞蹈創作過程中，仍會遇到超出訓練數據能力范圍以及從仿真到現實不一致等問題。例如，首次舞蹈數據采集的舞者為身高約 1.8 m的男性，其舞蹈動作在映射到身高僅 1.2 m的人形機器人時，由于結構差異，導致其動作幅度與運動方式與人類存在顯著偏差。當演員動作幅度超出人形機器人可實現的運動極限時，人形機器人容易出現抽搐、抖動等異常。為應對這一問題，團隊在第二次采集過程中選擇了身高約 1.4 m、與人形機器人尺寸更為接近的女性舞者，并針對人形機器人的機械結構特性對動作進行了適配性修改，從而取得了更為理想的效果。

這一實踐過程表明，舞蹈創作需要舞蹈編導與算法工程師的深度協同：舞蹈編導需深入理解人形機器人的機械構造，以判斷動作的可被實現程度；算法工程師則需掌握舞蹈動作的細節特征。例如，英歌舞在最終實現過程中被拆分為三個片段，并在軟件中進行編排與優化，以確保舞蹈表演既符合技術可行性，又保持藝術感染力。與此同時，創作者還需進一步思考，當人類舞蹈動作被遷移到人形機器人時，哪些特質會喪失，哪些意想不到的表現效果可能出現，以及人形機器人是否具備發展出不完全依賴于模仿人類的獨特運動風格的潛力。

5結語

本文提出了一個人形機器人舞蹈動作學習框架，該框架參考了 PBHC方法，并在此基礎上引入了機身線速度內部潛在狀態的估計器和探索性好奇心獎勵。依托這一新型全身運動控制強化學習框架，人形機器人在實際部署中展現出兼具運動與藝術表現力的魯棒行為。在英歌舞實踐中，其動作精度得到了充分驗證，并最終獲得2025世界人形機器人運動會單機舞蹈類銀牌。這一成果推動了人形機器人運動控制技術的邊界擴展，為實現更敏捷、穩定，強魯棒性的實際應用奠定了基礎。然而，該方法當前仍存在局限：首先，缺乏對環境的感知能力（如地形感知與避障），從而限制了其在非結構化場景中的應用；其次，每個策略均針對單一動作進行訓練，需要針對不同舞蹈創作進行人類動作數據采集，并開展人類數據在人形機器人上的重定向，人形機器人訓練、獎勵函數參數微調、部署這一系列冗雜繁瑣的流程。

目前，人形機器人舞蹈仍需大量人工編舞與編程才能實現。未來的研究方向應聚焦于革新人機協作模式，即通過領域專家提供少量、直觀且精準的指導，結合人形機器人自身的先驗知識，使其能夠快速習得新任務，從而降低部署門檻。理想狀態下，人形機器人應如同生物體一般，在整個生命周期中持續學習與適應，而非依賴一次性訓練。此外，如何實現跨任務、跨環境甚至跨人形機器人平臺的高效技能遷移，以及如何賦予人形機器人即興舞蹈創作能力，仍是亟待解決的挑戰?？梢灶A見，在不久的將來，圍繞人形機器人訓練的安全、倫理、高效性與可持續性等問題也將逐步獲得有效應對。隨著具身智能和機器人技術在運動控制、環境感知和自主決策等方面的發展，人形機器人或將承擔電影特技表演任務，并擴展電影拍攝的可能性。其不僅能在電影中完成人類演員難以勝任的高難度動作，還能在動態環境中保持穩定性和安全性，或是在危險環境中進行拍攝。此外，人形機器人與影視行業的深度融合還將催生新的商業模式和內容創作生產方式。

參考文獻

（向下滑動閱讀）

[1] BERGEN B. 1. Embodiment[M]//DABROWSKA E, DIVJAK D. Handbook of Cognitive Linguistics. Berlin, München, Boston: De Gruyter Mouton, 2015: 10?30.

[2] PAOLO G, GONZALEZ-BILLANDON J, KéGL B. A call for embodied AI [EB/OL]. (2024?02?06)[2025?09?12]. https://arxiv.org/abs/2402.03824v4.

[3] GOSWAMI A, VADAKKEPAT P. Humanoid robotics: a reference[M]. Dordrecht: Springer, 2019.

[4] HUANG H, CUI W, ZHANG T, et al. Think on Your Feet: Seamless Transition Between Human?Like Locomotion in Response to Changing Commands[C]//2025 IEEE International Conference on Robotics and Automation (ICRA). IEEE, 2025: 15965?15971. DOI:10.1109/icra55743.2025.11127948.

[5] GU Z, LI J, SHEN W, et al. Humanoid Locomotion and Manipulation: Current Progress and Challenges in Control, Planning, and Learning[EB/OL]. (2025?01?03)[2025?09?12]. https://arxiv.org/abs/2501.02116v2.

[6] XIE W, HAN J, ZHENG J, et al. KungfuBot: Physics?Based Humanoid Whole?Body Control for Learning Highly?Dynamic Skills[EB/OL]. (2025?06?15)[2025?09?12]. https://arxiv.org/abs/2506.12851v1.

[7] BARNES B. Are You Ready for Sentient Disney Robots? [EB/OL]. (2021?08?19) [2025?09?12] .https://www.nytimes.com/2021/08/19/business/media/disney-parks-robots.html.

[8] GRANDIA R, KNOOP E, HOPKINS M, et al. Design and Control of a Bipedal Robotic Character[C]//Robotics: Science and Systems XX. Robotics: Science and Systems Foundation, 2024.

[9] 搜狐. 王興興回應爭議：格斗、跳舞的意義，具身智能并非“非人形不可”?[EB/OL].(2025?06?07) [2025?09?12] .https://www.sohu.com/a/902166736_476872.

[10] 李孟陽,武兵,李利娜,等.機器人模仿學習優化方法研究[J/OL].機械設計與制造,1?5[2025?09?05].https://doi.org/10.19356/j.cnki.1001-3997.20250808.007.

[11] 苗中華,朱子煜,張偉,等.具身智能農業機器人關鍵技術與發展趨勢[J].農業機械學報,2025,56(09):212?239.

[12] 張超,白文松,杜歆,等.模仿學習綜述：傳統與新進展[J].中國圖象圖形學報,2023,28(06):1585?1607.

[13] DE F A, MILANO M. Robotic Choreography Creation Through Symbolic AI Techniques[M]//Lecture Notes in Computer Science. Springer Nature Singapore, 2023: 346?351.

[14] LI R, YANG S, ROSS A D, et al. AI Choreographer: Music Conditioned 3D Dance Generation with AIST++ [EB/OL]. (2021?01?21)[2025?09?12]. https://arxiv.org/abs/2101.08779v3.

[15] Noetix Robotics. 從N2的矯健身姿到E1的溫暖雙臂，松延動力雙子星以硬核科技重新定義“機器人伙伴”！[EB/OL]. (2025?05?28) [2025?09?12]. https://noetixrobotics.com/newsInfo-46.html.

[16] ZHANG Y, KHANDURI P, TSAKNAKIS I, et al. An Introduction to Bilevel Optimization: Foundations and applications in signal processing and machine learning[J]. IEEE Signal Processing Magazine, 2024, 41(1): 38?59. DOI:10.1109/msp.2024.3358284.

[17] SCHULMAN J, WOLSKI F, DHARIWA P, et al. Proximal Policy Optimization Algorithms[EB/OL]. (2017?07?20)[2025?09?12]. https://arxiv.org/abs/1707.06347v2.

[18] LOPER M, MAHMOOD N, ROMERO J, et al. SMPL: a skinned multi?person linear model [J]. ACM Transactions on Graphics, 2015, 34(6): 1?16. DOI:10.1145/2816795.2818013.

[19] TANG H, HOUTHOOFT R, FOOTE D, et al. : A Study of Count?Based Exploration for Deep Reinforcement Learning[EB/OL]. (2016?11?15)[2025?09?12]. https://arxiv.org/abs/1611.04717v3.

[20] XIE W, BAI C, SHI J, et al. Humanoid Whole?Body Locomotion on Narrow Terrain via Dynamic Balance and Reinforcement Learning[EB/OL]. (2025?02?24)[2025?09?12]. https://arxiv.org/abs/2502.17219v2.

[21] PENG B X, ABBEEL P, LEVINE S, et al. DeepMimic: Example?Guided Deep Reinforcement Learning of Physics?Based Character Skills[EB/OL]. (2018?04?08)[2025?09?12]. https://arxiv.org/abs/1804.02717v3.

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.