无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

OMG運動生成框架:一句話、一段音樂即可操縱機器人完成全身動作

0
分享至



現階段大多數人形機器人的運動控制還局限于 “有參考才能動” 的被動跟蹤模式。

機器人只能機械重復提前錄入的動作軌跡,無法自主生成全新的動作,很難適配日常靈活的人機交互場景。

針對這一行業痛點,清華大學 MARS 實驗室推出 OMG 全模態人形運動生成框架,創新打造 “生成大腦 + 跟蹤小腦” 的分層控制方案。

團隊搭建千小時級專屬多模態機器人數據集,依托擴散模型構建通用運動生成網絡,讓機器人可實時響應文本、音頻、人體動作及組合指令,自主生成穩定可執行的全身運動軌跡。

實測結果顯示,OMG 不僅多項性能指標領跑主流模型,還具備大模型專屬的規模縮放、小樣本泛化、零樣本模態組合能力,為人形機器人通用智能控制落地提供了全套開源方案。



  • 論文地址:https://arxiv.org/abs/2606.10340
  • 項目主頁:https://tsinghua-mars-lab.github.io/OMG/
  • 開源代碼:https://github.com/Tsinghua-MARS-Lab/OMG
  • 作者單位:清華大學 MARS 實驗室

一、行業痛點:人形機器人缺少自主交互能力

目前主流人形機器人的運動跟蹤技術,高度依賴外部預設的參考動作,不能理解人類多樣化的交互意圖,無法根據文字、音樂、人體姿態自主創作新動作,只能被動執行既定程序,徹底限制了人形機器人的智能化與通用性,難以適配生活化、開放式的交互場景。

為破解這一行業難題,研究團隊量身打造 OMG 全模態運動生成體系。整套方案依托兩大核心模塊,千小時級多模態機器人數據集 OMG-Data 提供高質量訓練素材,自研 OMG-DiT 生成網絡負責多模態動作創作,搭配成熟的 HoloMotion 全身跟蹤器,形成從意圖理解、動作生成到落地執行的完整閉環,真正實現人形機器人的多模態智能自主控制。



二、OMG-Data:千小時級可執行多模態動作數據

高質量、符合物理約束的標準化動作數據,是支撐人形機器人通用能力的核心底座。現階段人類公開動作數據來源雜亂、骨架規范不統一,絕大多數人體動作無法直接遷移至實體機器人,存在嚴重的落地斷層。

為此,研究團隊搭建了一套完整、標準化的數據清洗流水線。研究團隊首先整合 AMASS、LAFAN、舞蹈、語音手勢配對等海量公開動作素材,剔除損壞幀、異常關節角度、時序錯位等無效樣本。隨后通過通用動作重定向技術 GMR,將 SMPL 人體模型、視頻重建人體、FBX 動畫等異構動作數據,統一映射至宇樹 G1 機器人專屬動作空間。針對無文本標注的動作片段,研究團隊在 MuJoCo 仿真環境渲染多視角動作畫面,利用 VLM 完成細粒度時序語義標注,并根據文本邊界、音樂樂句與滑動窗口完成長序列切分,適配模型短時預測的訓練方式。

為保證數據的物理可行性,所有候選動作均進入仿真環境完成完整軌跡推演,由跟蹤器實時執行并校驗機身高度、傾斜角度、連續跌倒幀數、關節極限等關鍵指標,篩除違背動力學規則、跟蹤失效的樣本。最終構建的 OMG-Data 數據集總時長達 1174.66 小時,包含 1166.6 小時文本標注動作、958.77 小時人體參考動作、191.6 小時音頻配對動作。所有數據無需二次修正,可直接用于實體機器人訓練,補齊了人形運動生成領域 “數據規模不足、機器人可執行性差” 的兩大核心短板。



三、OMG-DiT:可拓展輕量化 DiT 運動生成主干網絡

OMG-DiT 是整套框架的核心創新,采用「共享主干網絡 + 輕量化模態適配器」的解耦設計。模型將通用人形運動先驗與多模態條件輸入相互分離,無需對主干網絡重新預訓練,僅通過新增少量適配模塊即可快速接入全新控制模態,極大降低了通用人形機器人的拓展與迭代成本。

整套系統采用生成 - 跟蹤分層架構,分工清晰且高效協同。上層 OMG-DiT 作為運動生成大腦,基于歷史運動狀態、文本、音頻、人體參考動作等條件,實時預測未來 60 幀宇樹 G1 的全身參考軌跡;底層 HoloMotion 跟蹤器負責將生成的軌跡轉化為關節控制指令,完成機身平衡維持、抗擾與跟蹤等物理執行任務。



模型直接在宇樹 G1 原生 125 維機器人動作空間完成訓練與生成,無需額外的人體 - 機器人轉換編碼器。網絡主體基于 DiT 構建去噪主干,結合 RoPE 旋轉位置編碼與時序自注意力機制,精準建模全身運動的時序關聯。訓練階段通過隨機模態丟棄策略,配合推理階段的無分類器引導,實現單模態與多模態組合指令的靈活切換。

針對三類核心原生控制模態,團隊設計了差異化的特征注入方案。文本指令通過凍結 T5-Base 編碼器提取語義特征,以全局上下文 Token 的形式,經交叉注意力機制逐層注入 DiT 網絡;音頻、人體參考動作屬于幀對齊類信號,經 MLP 特征映射后,通過 FiLM 調制模塊逐幀優化運動特征,分別實現音樂節奏精準匹配、人體姿態高效復刻的能力。

該框架具備極強的模態拓展能力,以 Pico VR 關鍵點遙操作等全新交互場景為例,僅需配置零初始化 FiLM 適配器即可完成接入,主干預訓練權重完全保留,依托少量樣本微調即可適配全新任務,不會破壞模型已習得的通用運動先驗。在推理階段,用戶可自定義多模態引導參數,靈活調節文本語義、音頻節奏、人體姿態的權重配比,實現訓練數據中從未出現的多指令協同運動生成。

四、實驗全方位驗證:極致生成性能與通用基礎模型能力

研究團隊從橫向性能對比、下游小樣本遷移、基礎模型特性驗證三個維度,開展了全面、系統的實驗評測。所有模型輸出軌跡均在仿真環境中由真實跟蹤器執行校驗,同步統計運動生成質量、機器人跟蹤穩定性、跌倒率等多維指標,全方位驗證 OMG 框架的綜合性能與泛化優勢。

在多模態生成對比實驗中,OMG 在各類任務中均取得最優表現。文本驅動任務中,OMG-XL 模型 FID 低至 6.03,R-Precision@1 達 65.43%,機器人跌倒率僅 0.78%,語義匹配精度與物理穩定性顯著優于 GENMO、HYMotion、Kimodo 等主流模型;



音頻驅動舞蹈任務中,模型音頻匹配 FID_k 為 40.46,全程無跌倒失效,可精準跟隨古典、流行等不同風格音樂生成流暢全身動作;



人體姿態重定向任務上,模型 MPJPE 誤差僅 18.84,相較 GMR、NMR、OmniRetarget 等傳統方案,能夠在復刻人體細節姿態的同時,輸出高度穩定、機器人可精準跟蹤的運動軌跡。



下游微調實驗充分驗證了模型優異的遷移能力。在全新數據集適配任務中,僅使用 1% 的 AMASS-CMU 數據微調預訓練模型,即可媲美全量數據從零訓練的效果;在 Pico 關鍵點遙操作全新模態任務中,基于預訓練權重初始化的模型,性能大幅優于隨機初始化模型,充分證明主干網絡沉淀的通用運動先驗,具備極強的跨場景、跨模態泛化能力。

同時,論文驗證了該模型具備典型的基礎模型特質。其一為模型規模縮放特性(model scaling behavior),在數據與評估條件固定的前提下,模型參數量越大,運動生成綜合性能穩步提升,證明人形動作生成可通過模型擴容持續迭代優化。



其二為零樣本模態組合能力,模型可在推理階段融合文本、音頻等未見組合指令,兼顧語義邏輯與音樂節奏,生成差異化復合動作。此外,模型支持實時模態動態切換,在連續交互過程中平滑適配不同控制信號,完全滿足人機實時交互的應用需求。



作者介紹

清華大學黃思喬、李坤應、喬東銘、賀貫齊為本文共同第一作者;清華大學趙行教授為本文通訊作者。研究團隊長期聚焦人形機器人多模態運動生成、大規模動作數據集構建、仿真到現實遷移等前沿方向,持續產出人形機器人方向的系統性研究成果。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
94歲原中央保健局局長王敏清:50年沒感冒,無三高,靠的就是這幾招

94歲原中央保健局局長王敏清:50年沒感冒,無三高,靠的就是這幾招

新浪財經
2026-06-24 02:28:33
高分學子成試驗品?福耀科大風波發酵,網友:張雪峰的含金量上升

高分學子成試驗品?福耀科大風波發酵,網友:張雪峰的含金量上升

火山詩話
2026-06-27 16:12:32
廣州一民辦高校深夜再回應禁止小米汽車入校:校園車輛管理一視同仁,與品牌無關,并提供教師小米汽車進出記錄,涉事保安言論不實正在調查

廣州一民辦高校深夜再回應禁止小米汽車入校:校園車輛管理一視同仁,與品牌無關,并提供教師小米汽車進出記錄,涉事保安言論不實正在調查

揚子晚報
2026-06-29 07:28:02
最高可判刑入獄20年!36歲佛得角隊長涉嫌強奸 FIFA回應:暫不評價

最高可判刑入獄20年!36歲佛得角隊長涉嫌強奸 FIFA回應:暫不評價

風過鄉
2026-06-29 06:09:10
大羅:巴西不再出頂級中鋒?時代已經不同;巴西能拿第6顆星

大羅:巴西不再出頂級中鋒?時代已經不同;巴西能拿第6顆星

懂球帝
2026-06-29 02:14:12
我給局長開了3年車,并娶了他的地下情人,新婚夜我才知道賺大了

我給局長開了3年車,并娶了他的地下情人,新婚夜我才知道賺大了

千秋文化
2026-06-26 20:00:22
“一天一個價”!有網友曬單:去年不到7千,今年1.2萬了

“一天一個價”!有網友曬單:去年不到7千,今年1.2萬了

中國經濟網
2026-06-26 15:53:04
博主吐槽張雪820RR操控感不如雅馬哈R9!張雪硬剛:挑戰輸了送100臺820RR

博主吐槽張雪820RR操控感不如雅馬哈R9!張雪硬剛:挑戰輸了送100臺820RR

快科技
2026-06-28 08:40:24
日本隊真到可以戰勝巴西的時候了嗎?世界杯1/16決賽前瞻

日本隊真到可以戰勝巴西的時候了嗎?世界杯1/16決賽前瞻

世界BALL
2026-06-29 09:30:40
上世紀80年代末臺灣綜藝在哈爾濱采訪了一位當地美女

上世紀80年代末臺灣綜藝在哈爾濱采訪了一位當地美女

歲月有情1314
2026-06-28 21:53:40
29歲女子順產生下3兒1女四胞胎,醫生:非常罕見,萬分之一的比例!丈夫:生產前擔心會是4個兒子

29歲女子順產生下3兒1女四胞胎,醫生:非常罕見,萬分之一的比例!丈夫:生產前擔心會是4個兒子

番禺臺
2026-06-27 12:35:35
伊朗革命衛隊:美軍將體驗“地獄”般的感受

伊朗革命衛隊:美軍將體驗“地獄”般的感受

大風新聞
2026-06-28 17:22:25
華盛頓帶嬌妻中國行,西湖游船很浪漫,拿9000萬逆襲,未來可期

華盛頓帶嬌妻中國行,西湖游船很浪漫,拿9000萬逆襲,未來可期

大西體育
2026-06-29 10:23:10
大量上市!夏天敞開吃,高鉀低鈉,健脾胃消水腫

大量上市!夏天敞開吃,高鉀低鈉,健脾胃消水腫

新時代的兩性情感
2026-06-28 22:12:31
世界杯主帥薪資曝光:巴西主帥卡洛?安切洛蒂年薪 7755 萬元居首

世界杯主帥薪資曝光:巴西主帥卡洛?安切洛蒂年薪 7755 萬元居首

寶哥精彩賽事
2026-06-28 19:56:13
馬特-達蒙談足球:在我的家里,梅西比我更重要

馬特-達蒙談足球:在我的家里,梅西比我更重要

懂球帝
2026-06-29 12:09:51
許世友拒當副旅長,劉伯承犯難,徐向前:你沒告訴他旅長是誰?

許世友拒當副旅長,劉伯承犯難,徐向前:你沒告訴他旅長是誰?

芊芊子吟
2026-06-28 09:35:12
反轉信號確認!現在,這個板塊重倉干!

反轉信號確認!現在,這個板塊重倉干!

星圖金融研究院
2026-06-29 07:50:05
兩次執法,兩次致命誤判!這位主裁判為何總在津門虎比賽里搶戲?

兩次執法,兩次致命誤判!這位主裁判為何總在津門虎比賽里搶戲?

冷桂零落
2026-06-29 14:11:11
李玟離世三年后,主診醫生被起訴,死因曝光,家人:終于等到正義

李玟離世三年后,主診醫生被起訴,死因曝光,家人:終于等到正義

余鴡搞笑段子
2026-06-28 17:42:46
2026-06-29 16:11:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
13386文章數 142683關注度
往期回顧 全部

科技要聞

OpenAI推遲上市,那“Kimi們”呢?

頭條要聞

運-20最新大片片尾"彩蛋"提到的"小六"是誰 專家分析

頭條要聞

運-20最新大片片尾"彩蛋"提到的"小六"是誰 專家分析

體育要聞

他和伊朗隊,再次贏得全世界的尊重

娛樂要聞

蕭薔宣布捐出參加“浪姐”所有收入

財經要聞

35歲職場人,又好找工作了?

汽車要聞

全新寶馬iX3長軸版將于成都車展預售 四季度交付

態度原創

教育
房產
家居
藝術
軍事航空

教育要聞

第41課-買好票才能盡享游樂園快樂時光

房產要聞

你敢想?海口房地產投資,暴跌5成!

家居要聞

傳奇筑 日常詩

藝術要聞

《頑固者的城——胡吉宏的藝術實踐》學術交流展于貴州啟幕

軍事要聞

普京最新發聲:俄羅斯正處于命運攸關之際

無障礙瀏覽 進入關懷版