網易首頁 > 網易號 > 正文申請入駐

OMG運動生成框架：一句話、一段音樂即可操縱機器人完成全身動作

2026-06-29 14:25:36　來源: 機器之心Pro

天津舉報

分享至

現階段大多數人形機器人的運動控制還局限于 “有參考才能動” 的被動跟蹤模式。

機器人只能機械重復提前錄入的動作軌跡，無法自主生成全新的動作，很難適配日常靈活的人機交互場景。

針對這一行業痛點，清華大學 MARS 實驗室推出 OMG 全模態人形運動生成框架，創新打造 “生成大腦 + 跟蹤小腦” 的分層控制方案。

團隊搭建千小時級專屬多模態機器人數據集，依托擴散模型構建通用運動生成網絡，讓機器人可實時響應文本、音頻、人體動作及組合指令，自主生成穩定可執行的全身運動軌跡。

實測結果顯示，OMG 不僅多項性能指標領跑主流模型，還具備大模型專屬的規模縮放、小樣本泛化、零樣本模態組合能力，為人形機器人通用智能控制落地提供了全套開源方案。

論文地址：https://arxiv.org/abs/2606.10340
項目主頁：https://tsinghua-mars-lab.github.io/OMG/
開源代碼：https://github.com/Tsinghua-MARS-Lab/OMG
作者單位：清華大學 MARS 實驗室

一、行業痛點：人形機器人缺少自主交互能力

目前主流人形機器人的運動跟蹤技術，高度依賴外部預設的參考動作，不能理解人類多樣化的交互意圖，無法根據文字、音樂、人體姿態自主創作新動作，只能被動執行既定程序，徹底限制了人形機器人的智能化與通用性，難以適配生活化、開放式的交互場景。

為破解這一行業難題，研究團隊量身打造 OMG 全模態運動生成體系。整套方案依托兩大核心模塊，千小時級多模態機器人數據集 OMG-Data 提供高質量訓練素材，自研 OMG-DiT 生成網絡負責多模態動作創作，搭配成熟的 HoloMotion 全身跟蹤器，形成從意圖理解、動作生成到落地執行的完整閉環，真正實現人形機器人的多模態智能自主控制。

二、OMG-Data：千小時級可執行多模態動作數據

高質量、符合物理約束的標準化動作數據，是支撐人形機器人通用能力的核心底座。現階段人類公開動作數據來源雜亂、骨架規范不統一，絕大多數人體動作無法直接遷移至實體機器人，存在嚴重的落地斷層。

為此，研究團隊搭建了一套完整、標準化的數據清洗流水線。研究團隊首先整合 AMASS、LAFAN、舞蹈、語音手勢配對等海量公開動作素材，剔除損壞幀、異常關節角度、時序錯位等無效樣本。隨后通過通用動作重定向技術 GMR，將 SMPL 人體模型、視頻重建人體、FBX 動畫等異構動作數據，統一映射至宇樹 G1 機器人專屬動作空間。針對無文本標注的動作片段，研究團隊在 MuJoCo 仿真環境渲染多視角動作畫面，利用 VLM 完成細粒度時序語義標注，并根據文本邊界、音樂樂句與滑動窗口完成長序列切分，適配模型短時預測的訓練方式。

為保證數據的物理可行性，所有候選動作均進入仿真環境完成完整軌跡推演，由跟蹤器實時執行并校驗機身高度、傾斜角度、連續跌倒幀數、關節極限等關鍵指標，篩除違背動力學規則、跟蹤失效的樣本。最終構建的 OMG-Data 數據集總時長達 1174.66 小時，包含 1166.6 小時文本標注動作、958.77 小時人體參考動作、191.6 小時音頻配對動作。所有數據無需二次修正，可直接用于實體機器人訓練，補齊了人形運動生成領域 “數據規模不足、機器人可執行性差” 的兩大核心短板。

三、OMG-DiT：可拓展輕量化 DiT 運動生成主干網絡

OMG-DiT 是整套框架的核心創新，采用「共享主干網絡 + 輕量化模態適配器」的解耦設計。模型將通用人形運動先驗與多模態條件輸入相互分離，無需對主干網絡重新預訓練，僅通過新增少量適配模塊即可快速接入全新控制模態，極大降低了通用人形機器人的拓展與迭代成本。

整套系統采用生成 - 跟蹤分層架構，分工清晰且高效協同。上層 OMG-DiT 作為運動生成大腦，基于歷史運動狀態、文本、音頻、人體參考動作等條件，實時預測未來 60 幀宇樹 G1 的全身參考軌跡；底層 HoloMotion 跟蹤器負責將生成的軌跡轉化為關節控制指令，完成機身平衡維持、抗擾與跟蹤等物理執行任務。

模型直接在宇樹 G1 原生 125 維機器人動作空間完成訓練與生成，無需額外的人體 - 機器人轉換編碼器。網絡主體基于 DiT 構建去噪主干，結合 RoPE 旋轉位置編碼與時序自注意力機制，精準建模全身運動的時序關聯。訓練階段通過隨機模態丟棄策略，配合推理階段的無分類器引導，實現單模態與多模態組合指令的靈活切換。

針對三類核心原生控制模態，團隊設計了差異化的特征注入方案。文本指令通過凍結 T5-Base 編碼器提取語義特征，以全局上下文 Token 的形式，經交叉注意力機制逐層注入 DiT 網絡；音頻、人體參考動作屬于幀對齊類信號，經 MLP 特征映射后，通過 FiLM 調制模塊逐幀優化運動特征，分別實現音樂節奏精準匹配、人體姿態高效復刻的能力。

該框架具備極強的模態拓展能力，以 Pico VR 關鍵點遙操作等全新交互場景為例，僅需配置零初始化 FiLM 適配器即可完成接入，主干預訓練權重完全保留，依托少量樣本微調即可適配全新任務，不會破壞模型已習得的通用運動先驗。在推理階段，用戶可自定義多模態引導參數，靈活調節文本語義、音頻節奏、人體姿態的權重配比，實現訓練數據中從未出現的多指令協同運動生成。

四、實驗全方位驗證：極致生成性能與通用基礎模型能力

研究團隊從橫向性能對比、下游小樣本遷移、基礎模型特性驗證三個維度，開展了全面、系統的實驗評測。所有模型輸出軌跡均在仿真環境中由真實跟蹤器執行校驗，同步統計運動生成質量、機器人跟蹤穩定性、跌倒率等多維指標，全方位驗證 OMG 框架的綜合性能與泛化優勢。

在多模態生成對比實驗中，OMG 在各類任務中均取得最優表現。文本驅動任務中，OMG-XL 模型 FID 低至 6.03，R-Precision@1 達 65.43%，機器人跌倒率僅 0.78%，語義匹配精度與物理穩定性顯著優于 GENMO、HYMotion、Kimodo 等主流模型；

音頻驅動舞蹈任務中，模型音頻匹配 FID_k 為 40.46，全程無跌倒失效，可精準跟隨古典、流行等不同風格音樂生成流暢全身動作；

人體姿態重定向任務上，模型 MPJPE 誤差僅 18.84，相較 GMR、NMR、OmniRetarget 等傳統方案，能夠在復刻人體細節姿態的同時，輸出高度穩定、機器人可精準跟蹤的運動軌跡。

下游微調實驗充分驗證了模型優異的遷移能力。在全新數據集適配任務中，僅使用 1% 的 AMASS-CMU 數據微調預訓練模型，即可媲美全量數據從零訓練的效果；在 Pico 關鍵點遙操作全新模態任務中，基于預訓練權重初始化的模型，性能大幅優于隨機初始化模型，充分證明主干網絡沉淀的通用運動先驗，具備極強的跨場景、跨模態泛化能力。

同時，論文驗證了該模型具備典型的基礎模型特質。其一為模型規模縮放特性（model scaling behavior），在數據與評估條件固定的前提下，模型參數量越大，運動生成綜合性能穩步提升，證明人形動作生成可通過模型擴容持續迭代優化。

其二為零樣本模態組合能力，模型可在推理階段融合文本、音頻等未見組合指令，兼顧語義邏輯與音樂節奏，生成差異化復合動作。此外，模型支持實時模態動態切換，在連續交互過程中平滑適配不同控制信號，完全滿足人機實時交互的應用需求。

作者介紹

清華大學黃思喬、李坤應、喬東銘、賀貫齊為本文共同第一作者；清華大學趙行教授為本文通訊作者。研究團隊長期聚焦人形機器人多模態運動生成、大規模動作數據集構建、仿真到現實遷移等前沿方向，持續產出人形機器人方向的系統性研究成果。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.