清華大學(xué):機(jī)器人練武功，用3%的數(shù)據(jù)居然比用全部數(shù)據(jù)練得更好？

2026-06-13 15:02:07　來源: 科技行者

天津舉報(bào)

分享至

這項(xiàng)由清華大學(xué)、北京大學(xué)、上海交通大學(xué)及上海期智研究院聯(lián)合主導(dǎo)，并與GalBot公司合作完成的研究，于2026年6月發(fā)表，論文編號為arXiv:2606.06953。有興趣深入了解的讀者可以通過該編號查詢完整論文。

研究團(tuán)隊(duì)給這套方法起了一個(gè)頗為直白的名字——LIMMT，全稱"Less Is More for Motion Tracking"，翻譯過來就是"動(dòng)作追蹤中少即是多"。這也是該領(lǐng)域第一項(xiàng)專門從數(shù)據(jù)質(zhì)量角度系統(tǒng)研究人形機(jī)器人動(dòng)作訓(xùn)練的工作。

**一、問題的根源：機(jī)器人學(xué)武功，為什么數(shù)據(jù)越多反而越差？**

先從一個(gè)生活場景說起。假設(shè)你要教一個(gè)小學(xué)生練書法。你有兩種選擇：一是給他一千張各種字跡的范本，其中混雜著潦草的、錯(cuò)誤的、歪斜的；二是精心挑選出三十張筆畫清晰、結(jié)構(gòu)規(guī)范的優(yōu)質(zhì)范本。大多數(shù)人憑直覺就能判斷，第二種方式往往更有效——因?yàn)樵愀獾姆侗静粌H沒有幫助，還會干擾學(xué)生對"正確寫法"的認(rèn)知。

人形機(jī)器人學(xué)習(xí)動(dòng)作的道理幾乎一模一樣。研究團(tuán)隊(duì)關(guān)注的核心問題，正是讓機(jī)器人模仿人類動(dòng)作的"動(dòng)作追蹤"技術(shù)。簡單來說，這項(xiàng)技術(shù)的目標(biāo)是：給機(jī)器人一段參考動(dòng)作（比如一段跳舞、走路或跑跳的視頻），讓機(jī)器人用自己的身體把這段動(dòng)作準(zhǔn)確地還原出來，同時(shí)還不能摔倒、不能違反物理規(guī)律。這項(xiàng)能力是人形機(jī)器人實(shí)現(xiàn)各種復(fù)雜行為的基礎(chǔ)——無論是走路、搬運(yùn)物品，還是協(xié)助人類完成各種任務(wù)。

近年來，研究人員積累了海量的人體動(dòng)作數(shù)據(jù)。其中最具代表性的是一個(gè)叫做AMASS的大型動(dòng)作捕捉數(shù)據(jù)庫，它匯集了來自15個(gè)不同光學(xué)標(biāo)記數(shù)據(jù)集的動(dòng)作片段，共有約一萬四千條訓(xùn)練數(shù)據(jù)。與此同時(shí)，隨著從網(wǎng)絡(luò)視頻中自動(dòng)提取人體姿態(tài)技術(shù)的發(fā)展，動(dòng)作數(shù)據(jù)的規(guī)模還在持續(xù)爆炸性增長。

然而，一個(gè)令人困惑的現(xiàn)象出現(xiàn)了：當(dāng)研究人員把所有這些數(shù)據(jù)都喂給機(jī)器人去學(xué)習(xí)時(shí)，效果并沒有隨數(shù)據(jù)量的增加而持續(xù)提升，有時(shí)甚至適得其反。而業(yè)內(nèi)頂尖的追蹤系統(tǒng)，反而都還在使用規(guī)模較小但質(zhì)量更高的數(shù)據(jù)集。這就像那個(gè)書法教學(xué)的悖論：更多的范本，未必帶來更好的書法。

那么，問題究竟出在哪里？研究團(tuán)隊(duì)通過細(xì)致的分析發(fā)現(xiàn)，問題的核心在于數(shù)據(jù)中充斥著各種物理上"不可能發(fā)生"的動(dòng)作。這些動(dòng)作可能是在用攝像頭估計(jì)人體姿態(tài)時(shí)產(chǎn)生的誤差，也可能是在數(shù)據(jù)處理過程中引入的噪聲。常見的毛病包括：人物突然漂浮在空中沒有任何支撐、腳與地面發(fā)生穿透、關(guān)節(jié)運(yùn)動(dòng)速度超過了任何真實(shí)物理系統(tǒng)的極限，以及腳在靜止?fàn)顟B(tài)下仍在地面上滑動(dòng)等等。

當(dāng)機(jī)器人的學(xué)習(xí)算法試圖去模仿這些"不可能完成的動(dòng)作"時(shí)，就好比讓那個(gè)學(xué)書法的學(xué)生去臨摹一張紙上畫的"凌空懸浮的筆畫"——這既不可能實(shí)現(xiàn)，還會把學(xué)生原本正確的認(rèn)知攪亂。更糟糕的是，大量重復(fù)雷同的低質(zhì)量數(shù)據(jù)（比如幾千條幾乎一樣的普通走路片段）會讓機(jī)器人的學(xué)習(xí)陷入一種"刷水題"的狀態(tài)：表面上處理了大量數(shù)據(jù)，實(shí)際上沒有學(xué)到任何新東西，計(jì)算資源也被大量浪費(fèi)。

**二、重新定義"好數(shù)據(jù)"：三把衡量尺子**

面對這個(gè)問題，研究團(tuán)隊(duì)沒有簡單地說"去掉壞數(shù)據(jù)就行了"，而是提出了一個(gè)更系統(tǒng)的思考框架：一條動(dòng)作數(shù)據(jù)究竟好不好，要從三個(gè)維度來衡量。這三個(gè)維度就像是一把三叉尺，缺少任何一叉都無法準(zhǔn)確量出數(shù)據(jù)的價(jià)值。

第一個(gè)維度叫做"物理可行性"，簡單說就是這個(gè)動(dòng)作在現(xiàn)實(shí)世界中能不能被一個(gè)有血有肉、受物理規(guī)律約束的身體實(shí)際做出來。漂浮在空中的身體、穿透地面的腳、超速旋轉(zhuǎn)的關(guān)節(jié)——這些都是物理上不可能發(fā)生的事情，對應(yīng)的數(shù)據(jù)自然是需要清除的"毒素"。

第二個(gè)維度叫做"多樣性"，類似于問：這批數(shù)據(jù)里，有沒有足夠多種類的動(dòng)作？假如數(shù)據(jù)庫里有九千九百條走路數(shù)據(jù)和一百條跳舞數(shù)據(jù)，那就算總量再大，機(jī)器人學(xué)到的也主要是怎么走路，碰到跳舞就抓瞎了。好的數(shù)據(jù)集需要在行為空間上有廣泛的覆蓋，就像一本詞典不能只收錄"的、地、得"這類常用字，還需要覆蓋各種生僻字和專業(yè)詞匯。

第三個(gè)維度叫做"復(fù)雜度"，考量的是動(dòng)作本身有沒有足夠豐富的信息量。一段機(jī)器人站在原地紋絲不動(dòng)的視頻，或者慢悠悠地在平地上溜達(dá)，對機(jī)器人的學(xué)習(xí)貢獻(xiàn)極為有限——因?yàn)檫@些動(dòng)作太簡單了，沒有什么需要"思考"的地方。相反，一段高速跑跳、快速轉(zhuǎn)身、或者充滿節(jié)奏感的舞蹈動(dòng)作，包含了豐富的速度變化、加速度變化和協(xié)調(diào)性信息，能夠給機(jī)器人的學(xué)習(xí)提供更強(qiáng)的刺激和更豐富的訓(xùn)練信號。

這三個(gè)維度之間還有一個(gè)關(guān)鍵的順序邏輯：必須先解決物理可行性，再考慮多樣性，最后才是復(fù)雜度。原因很簡單——如果先做多樣性篩選，那些物理上根本不可能的動(dòng)作（比如懸浮在空中的人）在特征上往往顯得很"特別"，反而會被算法認(rèn)為是"獨(dú)特"的數(shù)據(jù)而優(yōu)先保留，結(jié)果正好相反。就像在圖書館整理書籍，首先要把印刷錯(cuò)誤的爛書扔掉，再考慮分類和選重點(diǎn)書目，而不是先選重點(diǎn)書目再發(fā)現(xiàn)很多都是廢紙。

**三、GQS框架：一條三段式數(shù)據(jù)煉金流水線**

基于上述思考，研究團(tuán)隊(duì)設(shè)計(jì)了一套叫做GQS（通用質(zhì)量篩選，General Quality Selection）的三階段數(shù)據(jù)處理流水線。這套流水線的目標(biāo)是：把一個(gè)大而雜亂的動(dòng)作數(shù)據(jù)庫，提煉成一個(gè)小而精華的訓(xùn)練數(shù)據(jù)集。

流水線的第一關(guān)叫做"物理過濾"，相當(dāng)于用一張細(xì)密的篩網(wǎng)把明顯有問題的數(shù)據(jù)篩掉。具體的做法是把每一條候選動(dòng)作數(shù)據(jù)放進(jìn)一個(gè)物理模擬器里重新"播放"一遍——不是讓機(jī)器人真正去做，而是在電腦里模擬，看看這個(gè)動(dòng)作在物理上是否能成立。模擬過程中，系統(tǒng)會同時(shí)盯著六種典型的物理違規(guī)：整個(gè)身體持續(xù)漂浮在空中（說明動(dòng)作重建出現(xiàn)了災(zāi)難性錯(cuò)誤）、身體部位鉆入地面（地面穿透）、關(guān)節(jié)速度超過硬件極限（速度違規(guī)）、腳在地面上不正常滑動(dòng)（足滑）、身體各部分相互碰撞（自碰撞），以及關(guān)節(jié)加速度突變（抖動(dòng)）。

這六種違規(guī)被賦予了不同的權(quán)重，而這些權(quán)重并不是拍腦袋決定的，而是通過實(shí)驗(yàn)數(shù)據(jù)反推出來的。研究團(tuán)隊(duì)發(fā)現(xiàn)，"漂浮"和"足滑"是最有害的兩類錯(cuò)誤，必須重罰；而"速度高"和"抖動(dòng)大"的動(dòng)作往往意味著動(dòng)作本身很激烈，這類動(dòng)作反而對訓(xùn)練有益，如果過于嚴(yán)格地懲罰，就會把有價(jià)值的高難度動(dòng)作誤傷——因此這兩類要輕罰甚至保留。最終，每條動(dòng)作數(shù)據(jù)會得到一個(gè)綜合物理質(zhì)量分（滿分100分），只有得分不低于90分的數(shù)據(jù)才能進(jìn)入下一關(guān)。

這種分級懲罰的設(shè)計(jì)背后有一個(gè)樸素但重要的洞察：一個(gè)激烈跳躍動(dòng)作導(dǎo)致的短暫"關(guān)節(jié)高速"和一個(gè)根本就無法在物理上實(shí)現(xiàn)的"懸空漂浮"，對訓(xùn)練的危害程度是完全不同的。把二者一刀切地同等對待，就會把嬰兒連洗澡水一起倒掉。

通過第一關(guān)的數(shù)據(jù)進(jìn)入第二關(guān)，這一關(guān)的任務(wù)是"建立語義地圖"，即給每條通過篩選的動(dòng)作數(shù)據(jù)分配一個(gè)在"動(dòng)作宇宙"中的坐標(biāo)位置，以便后續(xù)根據(jù)這個(gè)坐標(biāo)來判斷哪些數(shù)據(jù)彼此相似、哪些數(shù)據(jù)代表了獨(dú)特的行為。

這里用到了一種叫做"周期自動(dòng)編碼器"（Periodic Autoencoder，簡稱PAE）的技術(shù)。這個(gè)名字聽起來復(fù)雜，但背后的邏輯其實(shí)相當(dāng)直覺化。人類的動(dòng)作有一個(gè)非常突出的特點(diǎn)：絕大多數(shù)日常動(dòng)作都是周期性的——走路是左右腳交替邁步的循環(huán)，跑步也是，跳舞更是。普通的特征提取方法（比如直接比較兩個(gè)時(shí)間點(diǎn)上的關(guān)節(jié)角度）往往對這種周期性不敏感，兩段幾乎一樣的走路動(dòng)作，僅僅因?yàn)樵跁r(shí)間軸上錯(cuò)開了半個(gè)周期，就可能被判斷為"差異很大"，從而讓系統(tǒng)誤以為二者代表了兩種不同的行為。

PAE的解決思路是：與其比較兩段動(dòng)作在某一時(shí)刻的具體姿態(tài)，不如提取動(dòng)作的"節(jié)律特征"——也就是它的振幅（動(dòng)作幅度有多大）和頻率（動(dòng)作速度有多快）。這就像比較兩段音樂時(shí)，與其逐幀比較每一個(gè)音符，不如先看它們的整體節(jié)拍和音量包絡(luò)是否相似。兩段節(jié)拍和音量包絡(luò)都類似的音樂，哪怕具體音符稍有不同，人耳聽起來也會覺得"差不多"。

通過PAE，每條動(dòng)作數(shù)據(jù)最終會被轉(zhuǎn)化成一個(gè)固定長度的數(shù)字向量（可以理解為一個(gè)坐標(biāo)），代表這條數(shù)據(jù)在"動(dòng)作語義空間"中的位置。動(dòng)作風(fēng)格類似的數(shù)據(jù)，坐標(biāo)也會比較接近；動(dòng)作風(fēng)格迥異的數(shù)據(jù)，坐標(biāo)則會相距甚遠(yuǎn)。這樣就建立起了一張能夠客觀反映動(dòng)作多樣性的"地圖"。

流水線的第三關(guān)叫做"加權(quán)最遠(yuǎn)點(diǎn)采樣"，這是整個(gè)框架中最具創(chuàng)意的一個(gè)環(huán)節(jié)。有了前一步建立的動(dòng)作語義地圖，現(xiàn)在需要從中挑選出一個(gè)小而精的子集來用于訓(xùn)練。挑選的核心目標(biāo)是：盡可能地覆蓋整張地圖的各個(gè)角落，而不是扎堆選取某一類常見動(dòng)作。

這個(gè)過程可以用"布點(diǎn)探險(xiǎn)"來理解。假設(shè)你需要在一張地圖上選100個(gè)營地，目標(biāo)是讓這100個(gè)營地盡量覆蓋地圖上的每一個(gè)角落，而不是全部擠在城市旁邊。最直覺的做法是"最遠(yuǎn)點(diǎn)采樣"：每次都選距離已選營地最遠(yuǎn)的那個(gè)點(diǎn)。這樣選下來，營地的分布就會自然而然地均勻鋪開，不會出現(xiàn)某個(gè)區(qū)域特別密集、而另一個(gè)區(qū)域完全空白的情況。

研究團(tuán)隊(duì)在這個(gè)基礎(chǔ)上加入了"動(dòng)作復(fù)雜度"的偏好：當(dāng)兩個(gè)候選數(shù)據(jù)在地圖上的距離差不多的時(shí)候，優(yōu)先選擇那個(gè)動(dòng)作更復(fù)雜、更激烈的（具體的度量方式是計(jì)算關(guān)節(jié)速度和加速度的能量）。就好比在荒野中選營地，當(dāng)兩個(gè)位置都同樣偏遠(yuǎn)時(shí)，優(yōu)先選擇地形更復(fù)雜、更具挑戰(zhàn)性的那個(gè)——因?yàn)樵谀抢镉?xùn)練出的技能，未來的適應(yīng)能力會更強(qiáng)。整個(gè)選擇過程從最復(fù)雜的動(dòng)作開始（確保起點(diǎn)就是最具挑戰(zhàn)性的），然后不斷向地圖的其他區(qū)域擴(kuò)展，直到選滿目標(biāo)數(shù)量為止。

**四、實(shí)驗(yàn)驗(yàn)證：3%的數(shù)據(jù)為什么能打敗100%？**

理論講完了，接下來是硬核的實(shí)驗(yàn)驗(yàn)證。研究團(tuán)隊(duì)在AMASS數(shù)據(jù)集上（約14000條訓(xùn)練片段）對兩套主流的動(dòng)作追蹤系統(tǒng)進(jìn)行了全面測試，這兩套系統(tǒng)分別叫做Any2Track和TWIST2，都是當(dāng)前業(yè)界最先進(jìn)的追蹤框架。

最核心的發(fā)現(xiàn)是：使用GQS方法篩選出的僅僅3%的數(shù)據(jù)（大約420條片段，總時(shí)長不足一小時(shí)）來訓(xùn)練機(jī)器人，在所有評測指標(biāo)上都超過了用100%完整數(shù)據(jù)訓(xùn)練的結(jié)果。具體來說，對于Any2Track系統(tǒng)，使用3%的GQS數(shù)據(jù)訓(xùn)練后，動(dòng)作追蹤成功率達(dá)到了95.6%，而用全部數(shù)據(jù)訓(xùn)練只有94.2%；動(dòng)作誤差（關(guān)節(jié)位置均值誤差）也從0.114降低到了0.108。對于TWIST2系統(tǒng)，GQS 3%數(shù)據(jù)的成功率達(dá)到86.1%，而全數(shù)據(jù)訓(xùn)練只有82.5%；關(guān)節(jié)誤差從0.099降低到了0.092。

更能說明問題的是"隨機(jī)抽取3%"的對比實(shí)驗(yàn)。研究團(tuán)隊(duì)專門設(shè)計(jì)了一個(gè)"隨機(jī)取3%"的對照組，結(jié)果令人咋舌：隨機(jī)抽取3%的數(shù)據(jù)進(jìn)行訓(xùn)練，效果慘不忍睹，Any2Track的成功率暴跌至83.8%，TWIST2更是跌至64.9%——這表明，"用更少的數(shù)據(jù)"本身并不是秘訣，秘訣在于"用對的數(shù)據(jù)"。

研究團(tuán)隊(duì)還發(fā)現(xiàn)了一個(gè)"甜蜜點(diǎn)"：在GQS篩選后的數(shù)據(jù)中，選取約10%用于訓(xùn)練，能夠達(dá)到最佳的性價(jià)比平衡點(diǎn)。在這個(gè)比例下，Any2Track的成功率進(jìn)一步提升至95.9%，TWIST2也達(dá)到了86.8%——比全數(shù)據(jù)訓(xùn)練還要好，同時(shí)訓(xùn)練成本大幅降低。繼續(xù)增加數(shù)據(jù)比例至90%甚至100%，帶來的改善已經(jīng)微乎其微，但計(jì)算開銷卻成倍增加。

學(xué)習(xí)曲線的對比同樣富有啟發(fā)性。研究團(tuán)隊(duì)記錄了整個(gè)訓(xùn)練過程中獎(jiǎng)勵(lì)分?jǐn)?shù)的變化，發(fā)現(xiàn)GQS數(shù)據(jù)訓(xùn)練的獎(jiǎng)勵(lì)曲線從一開始就顯著高于全數(shù)據(jù)訓(xùn)練，并且在整個(gè)訓(xùn)練過程中始終保持領(lǐng)先。這說明GQS帶來的優(yōu)勢并不是什么后期才顯現(xiàn)的收益，而是從訓(xùn)練的最初階段就在引導(dǎo)機(jī)器人走上一條更好的學(xué)習(xí)路徑——就像書法啟蒙階段就打好了基礎(chǔ)，之后的提升才會事半功倍。

在跨數(shù)據(jù)集的驗(yàn)證實(shí)驗(yàn)中，研究團(tuán)隊(duì)還在一個(gè)叫做PHUMA的高質(zhì)量物理感知?jiǎng)幼鲾?shù)據(jù)集上進(jìn)行了測試。PHUMA本身經(jīng)過了專業(yè)的物理合理性處理，因此物理過濾帶來的提升相對有限，但多樣性篩選和復(fù)雜度加權(quán)仍然帶來了一致的改進(jìn)。更有意思的是，用PHUMA的10%數(shù)據(jù)訓(xùn)練出的模型，在完全沒有見過的AMASS測試集上也表現(xiàn)更好（成功率92.8%對91.0%），說明GQS數(shù)據(jù)選出的模型對于未見過的場景泛化能力更強(qiáng)——因?yàn)槿サ袅巳菀走^擬合的冗余數(shù)據(jù)，模型反而學(xué)到了更通用的技能。

**五、拆解驗(yàn)證：每個(gè)環(huán)節(jié)究竟貢獻(xiàn)了多少？**

為了精確地知道三個(gè)階段各自貢獻(xiàn)了多少，研究團(tuán)隊(duì)做了嚴(yán)格的消融實(shí)驗(yàn)——就是逐一"拆掉"每個(gè)組件，看看性能如何變化。

去掉物理過濾之后，成功率從95.6%急劇下降至91.1%，動(dòng)作誤差也明顯惡化。這證實(shí)了物理過濾的不可或缺性：在低數(shù)據(jù)量的極端條件下，哪怕只有幾條"有毒"的數(shù)據(jù)混入，就會嚴(yán)重拖累整體訓(xùn)練效果。

去掉多樣性采樣（即不做最遠(yuǎn)點(diǎn)采樣，只靠物理過濾和復(fù)雜度選擇）之后，成功率降至93.4%。這說明單純堆砌"高難度動(dòng)作"而忽視行為覆蓋面，反而會讓訓(xùn)練數(shù)據(jù)在行為空間上出現(xiàn)大片空白，機(jī)器人對于某些類型的動(dòng)作就會完全沒有經(jīng)驗(yàn)。

去掉復(fù)雜度加權(quán)（即只做物理過濾和均勻最遠(yuǎn)點(diǎn)采樣）之后，成功率為94.6%，已經(jīng)相當(dāng)不錯(cuò)了，但加上復(fù)雜度加權(quán)后的完整GQS仍然能多出約1個(gè)百分點(diǎn)的成功率。這1個(gè)百分點(diǎn)背后的含義是：在動(dòng)作語義地圖的每一個(gè)區(qū)域內(nèi)，優(yōu)先選擇更有挑戰(zhàn)性的代表樣本，能讓訓(xùn)練數(shù)據(jù)的"信息密度"進(jìn)一步提升。

這個(gè)拆解驗(yàn)證的結(jié)論很清晰：三個(gè)階段并非各自為戰(zhàn)，而是存在協(xié)同效應(yīng)。物理過濾清除了有害數(shù)據(jù)，為后續(xù)階段建立了干凈的起點(diǎn)；多樣性采樣確保了行為覆蓋面的廣度；復(fù)雜度加權(quán)則在廣度的基礎(chǔ)上進(jìn)一步提升了每個(gè)樣本的學(xué)習(xí)價(jià)值。順序同樣關(guān)鍵：如果顛倒順序，就會產(chǎn)生前文分析過的問題。

**六、權(quán)重如何確定：科學(xué)分配六種"罪行"的刑罰**

在物理過濾中，六種違規(guī)行為的懲罰權(quán)重是如何確定的？研究團(tuán)隊(duì)采用了一種數(shù)據(jù)驅(qū)動(dòng)的"刑罰標(biāo)定"方法：分別對每一種違規(guī)指標(biāo)獨(dú)立地做過濾實(shí)驗(yàn)——即只保留某一項(xiàng)指標(biāo)最好的90%數(shù)據(jù)，然后訓(xùn)練模型，看看性能如何變化。

實(shí)驗(yàn)結(jié)果非常有趣，六種指標(biāo)被清晰地分成了三類。"浮空"和"足滑"屬于"有毒指標(biāo)"，去掉它們后性能明顯提升，分別提升了約2.6和1.0個(gè)百分點(diǎn)，因此被賦予高懲罰權(quán)重。"地面穿透"和"抖動(dòng)"屬于中性指標(biāo)，過濾這些數(shù)據(jù)對性能幾乎沒有顯著影響，分配中等權(quán)重作為安全約束。而"速度違規(guī)"和"自碰撞"則屬于"友好指標(biāo)"——過濾掉這類數(shù)據(jù)后，性能反而下降了2.8和3.0個(gè)百分點(diǎn)！原因在于，關(guān)節(jié)速度高的動(dòng)作往往就是高難度、高強(qiáng)度的動(dòng)作，正是訓(xùn)練所需要的；而某些貼身格斗或舞蹈動(dòng)作在形式上可能有短暫的"自碰撞"，卻包含了極為豐富的協(xié)調(diào)性訓(xùn)練信息。如果把這類數(shù)據(jù)刪掉，就是主動(dòng)丟棄了最有價(jià)值的訓(xùn)練素材。這個(gè)發(fā)現(xiàn)顛覆了很多人對"物理合理性過濾"的直覺理解。

還有一個(gè)非常有價(jià)值的發(fā)現(xiàn)：僅僅按照物理質(zhì)量分從高到低排序，表現(xiàn)最好的并不是物理分最高的那10%數(shù)據(jù)，而是物理分排在60%到70%之間的數(shù)據(jù)段，其成功率反而達(dá)到了96.3%。原因正是前面討論過的：物理分滿分的動(dòng)作往往是極其保守的靜止或慢速動(dòng)作，缺乏動(dòng)態(tài)豐富性；真正有價(jià)值的訓(xùn)練數(shù)據(jù)，是那些"物理上過關(guān)、但動(dòng)作本身有相當(dāng)復(fù)雜度"的數(shù)據(jù)。這進(jìn)一步證明：單純追求物理合理性并不等于選出了好的訓(xùn)練數(shù)據(jù)，必須把多樣性和復(fù)雜度也納入考量。

**七、真機(jī)部署：在真實(shí)機(jī)器人身上的檢驗(yàn)**

再好的仿真結(jié)果，如果到了真實(shí)機(jī)器人上就失效，那也只是空中樓閣。研究團(tuán)隊(duì)將用GQS 10%數(shù)據(jù)訓(xùn)練的策略，直接部署到了宇樹G1型號的真實(shí)人形機(jī)器人上，進(jìn)行了包括中國功夫、老城路舞蹈（"Old Town Road"）、Can Do Can Go舞蹈，以及單腿跳躍和手持箱子等多種動(dòng)作類別的追蹤測試，每類動(dòng)作進(jìn)行了10次試驗(yàn)。

量化結(jié)果同樣令人信服。在走路類動(dòng)作上，GQS 10%策略和全數(shù)據(jù)策略都達(dá)到了10次全部成功，但前者的關(guān)節(jié)位置誤差（0.0856 rad）明顯低于后者（0.1037 rad），提升了約17%。在跳躍類動(dòng)作上，GQS 10%達(dá)到了9次成功，全數(shù)據(jù)策略只有8次。在兩段舞蹈動(dòng)作上，GQS 10%分別達(dá)到8次和7次成功，而全數(shù)據(jù)策略只有7次和6次。平均而言，GQS 10%策略的真機(jī)成功率為85%，高于全數(shù)據(jù)策略的77.5%，平均關(guān)節(jié)誤差也低了約15.8%。

值得強(qiáng)調(diào)的是，這個(gè)部署是"零樣本"的——沒有針對真實(shí)機(jī)器人進(jìn)行任何額外的微調(diào)或調(diào)整，直接把仿真中訓(xùn)練好的策略拿來用。這種直接可用性在機(jī)器人領(lǐng)域非常珍貴，因?yàn)檎鎸?shí)機(jī)器人和仿真環(huán)境之間總存在差距（被稱為"仿真到現(xiàn)實(shí)的鴻溝"）。GQS數(shù)據(jù)之所以能幫助跨越這條鴻溝，研究團(tuán)隊(duì)認(rèn)為有兩個(gè)原因：物理過濾去除了那些在仿真中能僥幸應(yīng)付、但在現(xiàn)實(shí)中必然失敗的"虛假動(dòng)作"；而復(fù)雜度加權(quán)選出的高難度動(dòng)作，則讓機(jī)器人在訓(xùn)練中就練習(xí)了各種極端情況，提高了對現(xiàn)實(shí)世界不確定性的魯棒性。

**八、一個(gè)實(shí)用小工具：怎么快速決定用多少數(shù)據(jù)？**

對于想把GQS應(yīng)用到自己數(shù)據(jù)集上的研究者或工程師，還有一個(gè)自然而然的問題：應(yīng)該選多少比例的數(shù)據(jù)來訓(xùn)練？理論上需要做一系列實(shí)驗(yàn)來測試不同比例的效果，但這樣做成本很高。研究團(tuán)隊(duì)針對這個(gè)問題提出了一個(gè)輕量級的估算方法，叫做"自適應(yīng)比例選擇"（Adaptive Ratio Selection，ARS）。

ARS的核心邏輯是：最優(yōu)的數(shù)據(jù)比例，取決于這個(gè)數(shù)據(jù)集內(nèi)部的"多樣性密度"。如果一個(gè)數(shù)據(jù)集非常冗余（大量重復(fù)類似的動(dòng)作），就應(yīng)該更大力度地篩選，留下比例更小；如果一個(gè)數(shù)據(jù)集本身已經(jīng)很多樣化，那就需要保留更大比例以確保覆蓋面。

量化這種"多樣性密度"的方式是通過統(tǒng)計(jì)PAE嵌入向量的有效維度數(shù)——也就是說，這批數(shù)據(jù)的特征在高維空間里究竟"鋪開"了多少個(gè)有實(shí)質(zhì)意義的方向。用數(shù)學(xué)工具PCA（主成分分析）來提取，看需要多少個(gè)主成分才能解釋95%的數(shù)據(jù)方差。如果數(shù)據(jù)非常單調(diào)，大部分?jǐn)?shù)據(jù)特征都集中在少數(shù)幾個(gè)方向上，有效維度就低；如果數(shù)據(jù)非常多樣，特征分散在許多方向上，有效維度就高。

根據(jù)這個(gè)有效維度數(shù)，ARS給出的預(yù)測公式是：最優(yōu)比例 ≈ 0.5 × （有效維度數(shù)/總維度數(shù)）的平方。在AMASS上，有效維度占總維度的47%，預(yù)測最優(yōu)比例為11%，與實(shí)驗(yàn)觀察到的10%高度吻合；在PHUMA上，有效維度占81%，預(yù)測為32.8%，與實(shí)驗(yàn)觀察到的30%同樣接近。這個(gè)工具雖然只在兩個(gè)數(shù)據(jù)集上得到了驗(yàn)證，但提供了一個(gè)有價(jià)值的快速估算起點(diǎn)，能顯著減少調(diào)參的試錯(cuò)成本。

說到底，這項(xiàng)研究給出的核心信息是：在人形機(jī)器人的運(yùn)動(dòng)學(xué)習(xí)領(lǐng)域，盲目堆積數(shù)據(jù)并不等于提升智能，真正推動(dòng)進(jìn)步的是數(shù)據(jù)的質(zhì)量——具體體現(xiàn)在物理可行性、行為多樣性和動(dòng)作復(fù)雜度這三個(gè)維度的協(xié)同優(yōu)化上。用3%的精華數(shù)據(jù)打敗100%的原始數(shù)據(jù)，這個(gè)結(jié)論在直覺上反常，但實(shí)驗(yàn)一次次地給出了同樣清晰的答案。

這件事對我們理解人工智能的學(xué)習(xí)機(jī)制有更廣泛的啟發(fā)意義：不僅在機(jī)器人領(lǐng)域，在語言模型、視覺模型乃至任何需要從數(shù)據(jù)中學(xué)習(xí)的系統(tǒng)中，數(shù)據(jù)質(zhì)量的戰(zhàn)略性角色都值得重新審視。當(dāng)下這個(gè)"數(shù)據(jù)規(guī)模就是一切"的流行敘事，或許需要加上一個(gè)重要的注腳——前提是這些數(shù)據(jù)得有價(jià)值。

如果這個(gè)話題讓你對數(shù)據(jù)質(zhì)量與機(jī)器學(xué)習(xí)的關(guān)系產(chǎn)生了更多興趣，可以通過論文編號arXiv:2606.06953查閱原文，深入了解每一個(gè)實(shí)驗(yàn)的具體細(xì)節(jié)和技術(shù)實(shí)現(xiàn)。

**Q&A**

Q1：LIMMT方法中的GQS三階段篩選是什么意思？

A：GQS（通用質(zhì)量篩選）分三步處理動(dòng)作數(shù)據(jù)。第一步是把每條數(shù)據(jù)放進(jìn)物理模擬器里檢驗(yàn)，按六種物理違規(guī)打分，不合格的直接淘汰。第二步是用周期自動(dòng)編碼器把每條數(shù)據(jù)轉(zhuǎn)換成一個(gè)代表"動(dòng)作風(fēng)格"的向量坐標(biāo)，建立動(dòng)作語義地圖。第三步是在這張地圖上通過"加權(quán)最遠(yuǎn)點(diǎn)采樣"，均勻挑選覆蓋面廣且動(dòng)作復(fù)雜度高的子集，作為最終訓(xùn)練數(shù)據(jù)。

Q2：為什么隨機(jī)抽3%數(shù)據(jù)效果很差，而GQS挑選3%數(shù)據(jù)反而更好？

A：隨機(jī)抽取3%會保留很多物理上不可能實(shí)現(xiàn)的"壞數(shù)據(jù)"，機(jī)器人試圖模仿這些動(dòng)作時(shí)會受到錯(cuò)誤引導(dǎo)，同時(shí)數(shù)據(jù)分布完全繼承了原數(shù)據(jù)集的不均衡（比如大量重復(fù)走路數(shù)據(jù)），沒有有效覆蓋多樣的動(dòng)作類型。GQS則先刪掉了所有物理違規(guī)數(shù)據(jù)，再用算法確保選出的數(shù)據(jù)覆蓋多種不同行為，并優(yōu)先保留動(dòng)作激烈、信息量大的片段，因此每一條數(shù)據(jù)都真實(shí)有效且互補(bǔ)性強(qiáng)。

Q3：GQS方法對機(jī)器人的實(shí)際部署有什么影響？

A：用GQS 10%數(shù)據(jù)訓(xùn)練的策略，在真實(shí)宇樹G1機(jī)器人上的平均成功率（85%）比用全數(shù)據(jù)訓(xùn)練的高出約7.5個(gè)百分點(diǎn)，關(guān)節(jié)追蹤誤差平均降低約15.8%。更重要的是，這個(gè)策略不需要針對真實(shí)機(jī)器人做任何額外調(diào)整就能直接部署，說明GQS過濾掉了那些在仿真中能"蒙混過關(guān)"、在現(xiàn)實(shí)中卻會失敗的數(shù)據(jù)，同時(shí)復(fù)雜動(dòng)作的訓(xùn)練提升了機(jī)器人應(yīng)對現(xiàn)實(shí)不確定性的能力。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.