![]()
現階段大多數人形機器人的運動控制還局限于 “有參考才能動” 的被動跟蹤模式。
機器人只能機械重復提前錄入的動作軌跡,無法自主生成全新的動作,很難適配日常靈活的人機交互場景。
針對這一行業痛點,清華大學 MARS 實驗室推出 OMG 全模態人形運動生成框架,創新打造 “生成大腦 + 跟蹤小腦” 的分層控制方案。
團隊搭建千小時級專屬多模態機器人數據集,依托擴散模型構建通用運動生成網絡,讓機器人可實時響應文本、音頻、人體動作及組合指令,自主生成穩定可執行的全身運動軌跡。
實測結果顯示,OMG 不僅多項性能指標領跑主流模型,還具備大模型專屬的規模縮放、小樣本泛化、零樣本模態組合能力,為人形機器人通用智能控制落地提供了全套開源方案。
![]()
- 論文地址:https://arxiv.org/abs/2606.10340
- 項目主頁:https://tsinghua-mars-lab.github.io/OMG/
- 開源代碼:https://github.com/Tsinghua-MARS-Lab/OMG
- 作者單位:清華大學 MARS 實驗室
一、行業痛點:人形機器人缺少自主交互能力
目前主流人形機器人的運動跟蹤技術,高度依賴外部預設的參考動作,不能理解人類多樣化的交互意圖,無法根據文字、音樂、人體姿態自主創作新動作,只能被動執行既定程序,徹底限制了人形機器人的智能化與通用性,難以適配生活化、開放式的交互場景。
為破解這一行業難題,研究團隊量身打造 OMG 全模態運動生成體系。整套方案依托兩大核心模塊,千小時級多模態機器人數據集 OMG-Data 提供高質量訓練素材,自研 OMG-DiT 生成網絡負責多模態動作創作,搭配成熟的 HoloMotion 全身跟蹤器,形成從意圖理解、動作生成到落地執行的完整閉環,真正實現人形機器人的多模態智能自主控制。
![]()
二、OMG-Data:千小時級可執行多模態動作數據
高質量、符合物理約束的標準化動作數據,是支撐人形機器人通用能力的核心底座。現階段人類公開動作數據來源雜亂、骨架規范不統一,絕大多數人體動作無法直接遷移至實體機器人,存在嚴重的落地斷層。
為此,研究團隊搭建了一套完整、標準化的數據清洗流水線。研究團隊首先整合 AMASS、LAFAN、舞蹈、語音手勢配對等海量公開動作素材,剔除損壞幀、異常關節角度、時序錯位等無效樣本。隨后通過通用動作重定向技術 GMR,將 SMPL 人體模型、視頻重建人體、FBX 動畫等異構動作數據,統一映射至宇樹 G1 機器人專屬動作空間。針對無文本標注的動作片段,研究團隊在 MuJoCo 仿真環境渲染多視角動作畫面,利用 VLM 完成細粒度時序語義標注,并根據文本邊界、音樂樂句與滑動窗口完成長序列切分,適配模型短時預測的訓練方式。
為保證數據的物理可行性,所有候選動作均進入仿真環境完成完整軌跡推演,由跟蹤器實時執行并校驗機身高度、傾斜角度、連續跌倒幀數、關節極限等關鍵指標,篩除違背動力學規則、跟蹤失效的樣本。最終構建的 OMG-Data 數據集總時長達 1174.66 小時,包含 1166.6 小時文本標注動作、958.77 小時人體參考動作、191.6 小時音頻配對動作。所有數據無需二次修正,可直接用于實體機器人訓練,補齊了人形運動生成領域 “數據規模不足、機器人可執行性差” 的兩大核心短板。
![]()
三、OMG-DiT:可拓展輕量化 DiT 運動生成主干網絡
OMG-DiT 是整套框架的核心創新,采用「共享主干網絡 + 輕量化模態適配器」的解耦設計。模型將通用人形運動先驗與多模態條件輸入相互分離,無需對主干網絡重新預訓練,僅通過新增少量適配模塊即可快速接入全新控制模態,極大降低了通用人形機器人的拓展與迭代成本。
整套系統采用生成 - 跟蹤分層架構,分工清晰且高效協同。上層 OMG-DiT 作為運動生成大腦,基于歷史運動狀態、文本、音頻、人體參考動作等條件,實時預測未來 60 幀宇樹 G1 的全身參考軌跡;底層 HoloMotion 跟蹤器負責將生成的軌跡轉化為關節控制指令,完成機身平衡維持、抗擾與跟蹤等物理執行任務。
![]()
模型直接在宇樹 G1 原生 125 維機器人動作空間完成訓練與生成,無需額外的人體 - 機器人轉換編碼器。網絡主體基于 DiT 構建去噪主干,結合 RoPE 旋轉位置編碼與時序自注意力機制,精準建模全身運動的時序關聯。訓練階段通過隨機模態丟棄策略,配合推理階段的無分類器引導,實現單模態與多模態組合指令的靈活切換。
針對三類核心原生控制模態,團隊設計了差異化的特征注入方案。文本指令通過凍結 T5-Base 編碼器提取語義特征,以全局上下文 Token 的形式,經交叉注意力機制逐層注入 DiT 網絡;音頻、人體參考動作屬于幀對齊類信號,經 MLP 特征映射后,通過 FiLM 調制模塊逐幀優化運動特征,分別實現音樂節奏精準匹配、人體姿態高效復刻的能力。
該框架具備極強的模態拓展能力,以 Pico VR 關鍵點遙操作等全新交互場景為例,僅需配置零初始化 FiLM 適配器即可完成接入,主干預訓練權重完全保留,依托少量樣本微調即可適配全新任務,不會破壞模型已習得的通用運動先驗。在推理階段,用戶可自定義多模態引導參數,靈活調節文本語義、音頻節奏、人體姿態的權重配比,實現訓練數據中從未出現的多指令協同運動生成。
四、實驗全方位驗證:極致生成性能與通用基礎模型能力
研究團隊從橫向性能對比、下游小樣本遷移、基礎模型特性驗證三個維度,開展了全面、系統的實驗評測。所有模型輸出軌跡均在仿真環境中由真實跟蹤器執行校驗,同步統計運動生成質量、機器人跟蹤穩定性、跌倒率等多維指標,全方位驗證 OMG 框架的綜合性能與泛化優勢。
在多模態生成對比實驗中,OMG 在各類任務中均取得最優表現。文本驅動任務中,OMG-XL 模型 FID 低至 6.03,R-Precision@1 達 65.43%,機器人跌倒率僅 0.78%,語義匹配精度與物理穩定性顯著優于 GENMO、HYMotion、Kimodo 等主流模型;
![]()
音頻驅動舞蹈任務中,模型音頻匹配 FID_k 為 40.46,全程無跌倒失效,可精準跟隨古典、流行等不同風格音樂生成流暢全身動作;
![]()
人體姿態重定向任務上,模型 MPJPE 誤差僅 18.84,相較 GMR、NMR、OmniRetarget 等傳統方案,能夠在復刻人體細節姿態的同時,輸出高度穩定、機器人可精準跟蹤的運動軌跡。
![]()
下游微調實驗充分驗證了模型優異的遷移能力。在全新數據集適配任務中,僅使用 1% 的 AMASS-CMU 數據微調預訓練模型,即可媲美全量數據從零訓練的效果;在 Pico 關鍵點遙操作全新模態任務中,基于預訓練權重初始化的模型,性能大幅優于隨機初始化模型,充分證明主干網絡沉淀的通用運動先驗,具備極強的跨場景、跨模態泛化能力。
同時,論文驗證了該模型具備典型的基礎模型特質。其一為模型規模縮放特性(model scaling behavior),在數據與評估條件固定的前提下,模型參數量越大,運動生成綜合性能穩步提升,證明人形動作生成可通過模型擴容持續迭代優化。
![]()
其二為零樣本模態組合能力,模型可在推理階段融合文本、音頻等未見組合指令,兼顧語義邏輯與音樂節奏,生成差異化復合動作。此外,模型支持實時模態動態切換,在連續交互過程中平滑適配不同控制信號,完全滿足人機實時交互的應用需求。
![]()
作者介紹
清華大學黃思喬、李坤應、喬東銘、賀貫齊為本文共同第一作者;清華大學趙行教授為本文通訊作者。研究團隊長期聚焦人形機器人多模態運動生成、大規模動作數據集構建、仿真到現實遷移等前沿方向,持續產出人形機器人方向的系統性研究成果。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.