![]()
這項(xiàng)由清華大學(xué)、北京大學(xué)、上海交通大學(xué)及上海期智研究院聯(lián)合主導(dǎo),并與GalBot公司合作完成的研究,于2026年6月發(fā)表,論文編號為arXiv:2606.06953。有興趣深入了解的讀者可以通過該編號查詢完整論文。
研究團(tuán)隊(duì)給這套方法起了一個(gè)頗為直白的名字——LIMMT,全稱"Less Is More for Motion Tracking",翻譯過來就是"動(dòng)作追蹤中少即是多"。這也是該領(lǐng)域第一項(xiàng)專門從數(shù)據(jù)質(zhì)量角度系統(tǒng)研究人形機(jī)器人動(dòng)作訓(xùn)練的工作。
**一、問題的根源:機(jī)器人學(xué)武功,為什么數(shù)據(jù)越多反而越差?**
先從一個(gè)生活場景說起。假設(shè)你要教一個(gè)小學(xué)生練書法。你有兩種選擇:一是給他一千張各種字跡的范本,其中混雜著潦草的、錯(cuò)誤的、歪斜的;二是精心挑選出三十張筆畫清晰、結(jié)構(gòu)規(guī)范的優(yōu)質(zhì)范本。大多數(shù)人憑直覺就能判斷,第二種方式往往更有效——因?yàn)樵愀獾姆侗静粌H沒有幫助,還會干擾學(xué)生對"正確寫法"的認(rèn)知。
人形機(jī)器人學(xué)習(xí)動(dòng)作的道理幾乎一模一樣。研究團(tuán)隊(duì)關(guān)注的核心問題,正是讓機(jī)器人模仿人類動(dòng)作的"動(dòng)作追蹤"技術(shù)。簡單來說,這項(xiàng)技術(shù)的目標(biāo)是:給機(jī)器人一段參考動(dòng)作(比如一段跳舞、走路或跑跳的視頻),讓機(jī)器人用自己的身體把這段動(dòng)作準(zhǔn)確地還原出來,同時(shí)還不能摔倒、不能違反物理規(guī)律。這項(xiàng)能力是人形機(jī)器人實(shí)現(xiàn)各種復(fù)雜行為的基礎(chǔ)——無論是走路、搬運(yùn)物品,還是協(xié)助人類完成各種任務(wù)。
近年來,研究人員積累了海量的人體動(dòng)作數(shù)據(jù)。其中最具代表性的是一個(gè)叫做AMASS的大型動(dòng)作捕捉數(shù)據(jù)庫,它匯集了來自15個(gè)不同光學(xué)標(biāo)記數(shù)據(jù)集的動(dòng)作片段,共有約一萬四千條訓(xùn)練數(shù)據(jù)。與此同時(shí),隨著從網(wǎng)絡(luò)視頻中自動(dòng)提取人體姿態(tài)技術(shù)的發(fā)展,動(dòng)作數(shù)據(jù)的規(guī)模還在持續(xù)爆炸性增長。
然而,一個(gè)令人困惑的現(xiàn)象出現(xiàn)了:當(dāng)研究人員把所有這些數(shù)據(jù)都喂給機(jī)器人去學(xué)習(xí)時(shí),效果并沒有隨數(shù)據(jù)量的增加而持續(xù)提升,有時(shí)甚至適得其反。而業(yè)內(nèi)頂尖的追蹤系統(tǒng),反而都還在使用規(guī)模較小但質(zhì)量更高的數(shù)據(jù)集。這就像那個(gè)書法教學(xué)的悖論:更多的范本,未必帶來更好的書法。
那么,問題究竟出在哪里?研究團(tuán)隊(duì)通過細(xì)致的分析發(fā)現(xiàn),問題的核心在于數(shù)據(jù)中充斥著各種物理上"不可能發(fā)生"的動(dòng)作。這些動(dòng)作可能是在用攝像頭估計(jì)人體姿態(tài)時(shí)產(chǎn)生的誤差,也可能是在數(shù)據(jù)處理過程中引入的噪聲。常見的毛病包括:人物突然漂浮在空中沒有任何支撐、腳與地面發(fā)生穿透、關(guān)節(jié)運(yùn)動(dòng)速度超過了任何真實(shí)物理系統(tǒng)的極限,以及腳在靜止?fàn)顟B(tài)下仍在地面上滑動(dòng)等等。
當(dāng)機(jī)器人的學(xué)習(xí)算法試圖去模仿這些"不可能完成的動(dòng)作"時(shí),就好比讓那個(gè)學(xué)書法的學(xué)生去臨摹一張紙上畫的"凌空懸浮的筆畫"——這既不可能實(shí)現(xiàn),還會把學(xué)生原本正確的認(rèn)知攪亂。更糟糕的是,大量重復(fù)雷同的低質(zhì)量數(shù)據(jù)(比如幾千條幾乎一樣的普通走路片段)會讓機(jī)器人的學(xué)習(xí)陷入一種"刷水題"的狀態(tài):表面上處理了大量數(shù)據(jù),實(shí)際上沒有學(xué)到任何新東西,計(jì)算資源也被大量浪費(fèi)。
**二、重新定義"好數(shù)據(jù)":三把衡量尺子**
面對這個(gè)問題,研究團(tuán)隊(duì)沒有簡單地說"去掉壞數(shù)據(jù)就行了",而是提出了一個(gè)更系統(tǒng)的思考框架:一條動(dòng)作數(shù)據(jù)究竟好不好,要從三個(gè)維度來衡量。這三個(gè)維度就像是一把三叉尺,缺少任何一叉都無法準(zhǔn)確量出數(shù)據(jù)的價(jià)值。
第一個(gè)維度叫做"物理可行性",簡單說就是這個(gè)動(dòng)作在現(xiàn)實(shí)世界中能不能被一個(gè)有血有肉、受物理規(guī)律約束的身體實(shí)際做出來。漂浮在空中的身體、穿透地面的腳、超速旋轉(zhuǎn)的關(guān)節(jié)——這些都是物理上不可能發(fā)生的事情,對應(yīng)的數(shù)據(jù)自然是需要清除的"毒素"。
第二個(gè)維度叫做"多樣性",類似于問:這批數(shù)據(jù)里,有沒有足夠多種類的動(dòng)作?假如數(shù)據(jù)庫里有九千九百條走路數(shù)據(jù)和一百條跳舞數(shù)據(jù),那就算總量再大,機(jī)器人學(xué)到的也主要是怎么走路,碰到跳舞就抓瞎了。好的數(shù)據(jù)集需要在行為空間上有廣泛的覆蓋,就像一本詞典不能只收錄"的、地、得"這類常用字,還需要覆蓋各種生僻字和專業(yè)詞匯。
第三個(gè)維度叫做"復(fù)雜度",考量的是動(dòng)作本身有沒有足夠豐富的信息量。一段機(jī)器人站在原地紋絲不動(dòng)的視頻,或者慢悠悠地在平地上溜達(dá),對機(jī)器人的學(xué)習(xí)貢獻(xiàn)極為有限——因?yàn)檫@些動(dòng)作太簡單了,沒有什么需要"思考"的地方。相反,一段高速跑跳、快速轉(zhuǎn)身、或者充滿節(jié)奏感的舞蹈動(dòng)作,包含了豐富的速度變化、加速度變化和協(xié)調(diào)性信息,能夠給機(jī)器人的學(xué)習(xí)提供更強(qiáng)的刺激和更豐富的訓(xùn)練信號。
這三個(gè)維度之間還有一個(gè)關(guān)鍵的順序邏輯:必須先解決物理可行性,再考慮多樣性,最后才是復(fù)雜度。原因很簡單——如果先做多樣性篩選,那些物理上根本不可能的動(dòng)作(比如懸浮在空中的人)在特征上往往顯得很"特別",反而會被算法認(rèn)為是"獨(dú)特"的數(shù)據(jù)而優(yōu)先保留,結(jié)果正好相反。就像在圖書館整理書籍,首先要把印刷錯(cuò)誤的爛書扔掉,再考慮分類和選重點(diǎn)書目,而不是先選重點(diǎn)書目再發(fā)現(xiàn)很多都是廢紙。
**三、GQS框架:一條三段式數(shù)據(jù)煉金流水線**
基于上述思考,研究團(tuán)隊(duì)設(shè)計(jì)了一套叫做GQS(通用質(zhì)量篩選,General Quality Selection)的三階段數(shù)據(jù)處理流水線。這套流水線的目標(biāo)是:把一個(gè)大而雜亂的動(dòng)作數(shù)據(jù)庫,提煉成一個(gè)小而精華的訓(xùn)練數(shù)據(jù)集。
流水線的第一關(guān)叫做"物理過濾",相當(dāng)于用一張細(xì)密的篩網(wǎng)把明顯有問題的數(shù)據(jù)篩掉。具體的做法是把每一條候選動(dòng)作數(shù)據(jù)放進(jìn)一個(gè)物理模擬器里重新"播放"一遍——不是讓機(jī)器人真正去做,而是在電腦里模擬,看看這個(gè)動(dòng)作在物理上是否能成立。模擬過程中,系統(tǒng)會同時(shí)盯著六種典型的物理違規(guī):整個(gè)身體持續(xù)漂浮在空中(說明動(dòng)作重建出現(xiàn)了災(zāi)難性錯(cuò)誤)、身體部位鉆入地面(地面穿透)、關(guān)節(jié)速度超過硬件極限(速度違規(guī))、腳在地面上不正常滑動(dòng)(足滑)、身體各部分相互碰撞(自碰撞),以及關(guān)節(jié)加速度突變(抖動(dòng))。
這六種違規(guī)被賦予了不同的權(quán)重,而這些權(quán)重并不是拍腦袋決定的,而是通過實(shí)驗(yàn)數(shù)據(jù)反推出來的。研究團(tuán)隊(duì)發(fā)現(xiàn),"漂浮"和"足滑"是最有害的兩類錯(cuò)誤,必須重罰;而"速度高"和"抖動(dòng)大"的動(dòng)作往往意味著動(dòng)作本身很激烈,這類動(dòng)作反而對訓(xùn)練有益,如果過于嚴(yán)格地懲罰,就會把有價(jià)值的高難度動(dòng)作誤傷——因此這兩類要輕罰甚至保留。最終,每條動(dòng)作數(shù)據(jù)會得到一個(gè)綜合物理質(zhì)量分(滿分100分),只有得分不低于90分的數(shù)據(jù)才能進(jìn)入下一關(guān)。
這種分級懲罰的設(shè)計(jì)背后有一個(gè)樸素但重要的洞察:一個(gè)激烈跳躍動(dòng)作導(dǎo)致的短暫"關(guān)節(jié)高速"和一個(gè)根本就無法在物理上實(shí)現(xiàn)的"懸空漂浮",對訓(xùn)練的危害程度是完全不同的。把二者一刀切地同等對待,就會把嬰兒連洗澡水一起倒掉。
通過第一關(guān)的數(shù)據(jù)進(jìn)入第二關(guān),這一關(guān)的任務(wù)是"建立語義地圖",即給每條通過篩選的動(dòng)作數(shù)據(jù)分配一個(gè)在"動(dòng)作宇宙"中的坐標(biāo)位置,以便后續(xù)根據(jù)這個(gè)坐標(biāo)來判斷哪些數(shù)據(jù)彼此相似、哪些數(shù)據(jù)代表了獨(dú)特的行為。
這里用到了一種叫做"周期自動(dòng)編碼器"(Periodic Autoencoder,簡稱PAE)的技術(shù)。這個(gè)名字聽起來復(fù)雜,但背后的邏輯其實(shí)相當(dāng)直覺化。人類的動(dòng)作有一個(gè)非常突出的特點(diǎn):絕大多數(shù)日常動(dòng)作都是周期性的——走路是左右腳交替邁步的循環(huán),跑步也是,跳舞更是。普通的特征提取方法(比如直接比較兩個(gè)時(shí)間點(diǎn)上的關(guān)節(jié)角度)往往對這種周期性不敏感,兩段幾乎一樣的走路動(dòng)作,僅僅因?yàn)樵跁r(shí)間軸上錯(cuò)開了半個(gè)周期,就可能被判斷為"差異很大",從而讓系統(tǒng)誤以為二者代表了兩種不同的行為。
PAE的解決思路是:與其比較兩段動(dòng)作在某一時(shí)刻的具體姿態(tài),不如提取動(dòng)作的"節(jié)律特征"——也就是它的振幅(動(dòng)作幅度有多大)和頻率(動(dòng)作速度有多快)。這就像比較兩段音樂時(shí),與其逐幀比較每一個(gè)音符,不如先看它們的整體節(jié)拍和音量包絡(luò)是否相似。兩段節(jié)拍和音量包絡(luò)都類似的音樂,哪怕具體音符稍有不同,人耳聽起來也會覺得"差不多"。
通過PAE,每條動(dòng)作數(shù)據(jù)最終會被轉(zhuǎn)化成一個(gè)固定長度的數(shù)字向量(可以理解為一個(gè)坐標(biāo)),代表這條數(shù)據(jù)在"動(dòng)作語義空間"中的位置。動(dòng)作風(fēng)格類似的數(shù)據(jù),坐標(biāo)也會比較接近;動(dòng)作風(fēng)格迥異的數(shù)據(jù),坐標(biāo)則會相距甚遠(yuǎn)。這樣就建立起了一張能夠客觀反映動(dòng)作多樣性的"地圖"。
流水線的第三關(guān)叫做"加權(quán)最遠(yuǎn)點(diǎn)采樣",這是整個(gè)框架中最具創(chuàng)意的一個(gè)環(huán)節(jié)。有了前一步建立的動(dòng)作語義地圖,現(xiàn)在需要從中挑選出一個(gè)小而精的子集來用于訓(xùn)練。挑選的核心目標(biāo)是:盡可能地覆蓋整張地圖的各個(gè)角落,而不是扎堆選取某一類常見動(dòng)作。
這個(gè)過程可以用"布點(diǎn)探險(xiǎn)"來理解。假設(shè)你需要在一張地圖上選100個(gè)營地,目標(biāo)是讓這100個(gè)營地盡量覆蓋地圖上的每一個(gè)角落,而不是全部擠在城市旁邊。最直覺的做法是"最遠(yuǎn)點(diǎn)采樣":每次都選距離已選營地最遠(yuǎn)的那個(gè)點(diǎn)。這樣選下來,營地的分布就會自然而然地均勻鋪開,不會出現(xiàn)某個(gè)區(qū)域特別密集、而另一個(gè)區(qū)域完全空白的情況。
研究團(tuán)隊(duì)在這個(gè)基礎(chǔ)上加入了"動(dòng)作復(fù)雜度"的偏好:當(dāng)兩個(gè)候選數(shù)據(jù)在地圖上的距離差不多的時(shí)候,優(yōu)先選擇那個(gè)動(dòng)作更復(fù)雜、更激烈的(具體的度量方式是計(jì)算關(guān)節(jié)速度和加速度的能量)。就好比在荒野中選營地,當(dāng)兩個(gè)位置都同樣偏遠(yuǎn)時(shí),優(yōu)先選擇地形更復(fù)雜、更具挑戰(zhàn)性的那個(gè)——因?yàn)樵谀抢镉?xùn)練出的技能,未來的適應(yīng)能力會更強(qiáng)。整個(gè)選擇過程從最復(fù)雜的動(dòng)作開始(確保起點(diǎn)就是最具挑戰(zhàn)性的),然后不斷向地圖的其他區(qū)域擴(kuò)展,直到選滿目標(biāo)數(shù)量為止。
**四、實(shí)驗(yàn)驗(yàn)證:3%的數(shù)據(jù)為什么能打敗100%?**
理論講完了,接下來是硬核的實(shí)驗(yàn)驗(yàn)證。研究團(tuán)隊(duì)在AMASS數(shù)據(jù)集上(約14000條訓(xùn)練片段)對兩套主流的動(dòng)作追蹤系統(tǒng)進(jìn)行了全面測試,這兩套系統(tǒng)分別叫做Any2Track和TWIST2,都是當(dāng)前業(yè)界最先進(jìn)的追蹤框架。
最核心的發(fā)現(xiàn)是:使用GQS方法篩選出的僅僅3%的數(shù)據(jù)(大約420條片段,總時(shí)長不足一小時(shí))來訓(xùn)練機(jī)器人,在所有評測指標(biāo)上都超過了用100%完整數(shù)據(jù)訓(xùn)練的結(jié)果。具體來說,對于Any2Track系統(tǒng),使用3%的GQS數(shù)據(jù)訓(xùn)練后,動(dòng)作追蹤成功率達(dá)到了95.6%,而用全部數(shù)據(jù)訓(xùn)練只有94.2%;動(dòng)作誤差(關(guān)節(jié)位置均值誤差)也從0.114降低到了0.108。對于TWIST2系統(tǒng),GQS 3%數(shù)據(jù)的成功率達(dá)到86.1%,而全數(shù)據(jù)訓(xùn)練只有82.5%;關(guān)節(jié)誤差從0.099降低到了0.092。
更能說明問題的是"隨機(jī)抽取3%"的對比實(shí)驗(yàn)。研究團(tuán)隊(duì)專門設(shè)計(jì)了一個(gè)"隨機(jī)取3%"的對照組,結(jié)果令人咋舌:隨機(jī)抽取3%的數(shù)據(jù)進(jìn)行訓(xùn)練,效果慘不忍睹,Any2Track的成功率暴跌至83.8%,TWIST2更是跌至64.9%——這表明,"用更少的數(shù)據(jù)"本身并不是秘訣,秘訣在于"用對的數(shù)據(jù)"。
研究團(tuán)隊(duì)還發(fā)現(xiàn)了一個(gè)"甜蜜點(diǎn)":在GQS篩選后的數(shù)據(jù)中,選取約10%用于訓(xùn)練,能夠達(dá)到最佳的性價(jià)比平衡點(diǎn)。在這個(gè)比例下,Any2Track的成功率進(jìn)一步提升至95.9%,TWIST2也達(dá)到了86.8%——比全數(shù)據(jù)訓(xùn)練還要好,同時(shí)訓(xùn)練成本大幅降低。繼續(xù)增加數(shù)據(jù)比例至90%甚至100%,帶來的改善已經(jīng)微乎其微,但計(jì)算開銷卻成倍增加。
學(xué)習(xí)曲線的對比同樣富有啟發(fā)性。研究團(tuán)隊(duì)記錄了整個(gè)訓(xùn)練過程中獎(jiǎng)勵(lì)分?jǐn)?shù)的變化,發(fā)現(xiàn)GQS數(shù)據(jù)訓(xùn)練的獎(jiǎng)勵(lì)曲線從一開始就顯著高于全數(shù)據(jù)訓(xùn)練,并且在整個(gè)訓(xùn)練過程中始終保持領(lǐng)先。這說明GQS帶來的優(yōu)勢并不是什么后期才顯現(xiàn)的收益,而是從訓(xùn)練的最初階段就在引導(dǎo)機(jī)器人走上一條更好的學(xué)習(xí)路徑——就像書法啟蒙階段就打好了基礎(chǔ),之后的提升才會事半功倍。
在跨數(shù)據(jù)集的驗(yàn)證實(shí)驗(yàn)中,研究團(tuán)隊(duì)還在一個(gè)叫做PHUMA的高質(zhì)量物理感知?jiǎng)幼鲾?shù)據(jù)集上進(jìn)行了測試。PHUMA本身經(jīng)過了專業(yè)的物理合理性處理,因此物理過濾帶來的提升相對有限,但多樣性篩選和復(fù)雜度加權(quán)仍然帶來了一致的改進(jìn)。更有意思的是,用PHUMA的10%數(shù)據(jù)訓(xùn)練出的模型,在完全沒有見過的AMASS測試集上也表現(xiàn)更好(成功率92.8%對91.0%),說明GQS數(shù)據(jù)選出的模型對于未見過的場景泛化能力更強(qiáng)——因?yàn)槿サ袅巳菀走^擬合的冗余數(shù)據(jù),模型反而學(xué)到了更通用的技能。
**五、拆解驗(yàn)證:每個(gè)環(huán)節(jié)究竟貢獻(xiàn)了多少?**
為了精確地知道三個(gè)階段各自貢獻(xiàn)了多少,研究團(tuán)隊(duì)做了嚴(yán)格的消融實(shí)驗(yàn)——就是逐一"拆掉"每個(gè)組件,看看性能如何變化。
去掉物理過濾之后,成功率從95.6%急劇下降至91.1%,動(dòng)作誤差也明顯惡化。這證實(shí)了物理過濾的不可或缺性:在低數(shù)據(jù)量的極端條件下,哪怕只有幾條"有毒"的數(shù)據(jù)混入,就會嚴(yán)重拖累整體訓(xùn)練效果。
去掉多樣性采樣(即不做最遠(yuǎn)點(diǎn)采樣,只靠物理過濾和復(fù)雜度選擇)之后,成功率降至93.4%。這說明單純堆砌"高難度動(dòng)作"而忽視行為覆蓋面,反而會讓訓(xùn)練數(shù)據(jù)在行為空間上出現(xiàn)大片空白,機(jī)器人對于某些類型的動(dòng)作就會完全沒有經(jīng)驗(yàn)。
去掉復(fù)雜度加權(quán)(即只做物理過濾和均勻最遠(yuǎn)點(diǎn)采樣)之后,成功率為94.6%,已經(jīng)相當(dāng)不錯(cuò)了,但加上復(fù)雜度加權(quán)后的完整GQS仍然能多出約1個(gè)百分點(diǎn)的成功率。這1個(gè)百分點(diǎn)背后的含義是:在動(dòng)作語義地圖的每一個(gè)區(qū)域內(nèi),優(yōu)先選擇更有挑戰(zhàn)性的代表樣本,能讓訓(xùn)練數(shù)據(jù)的"信息密度"進(jìn)一步提升。
這個(gè)拆解驗(yàn)證的結(jié)論很清晰:三個(gè)階段并非各自為戰(zhàn),而是存在協(xié)同效應(yīng)。物理過濾清除了有害數(shù)據(jù),為后續(xù)階段建立了干凈的起點(diǎn);多樣性采樣確保了行為覆蓋面的廣度;復(fù)雜度加權(quán)則在廣度的基礎(chǔ)上進(jìn)一步提升了每個(gè)樣本的學(xué)習(xí)價(jià)值。順序同樣關(guān)鍵:如果顛倒順序,就會產(chǎn)生前文分析過的問題。
**六、權(quán)重如何確定:科學(xué)分配六種"罪行"的刑罰**
在物理過濾中,六種違規(guī)行為的懲罰權(quán)重是如何確定的?研究團(tuán)隊(duì)采用了一種數(shù)據(jù)驅(qū)動(dòng)的"刑罰標(biāo)定"方法:分別對每一種違規(guī)指標(biāo)獨(dú)立地做過濾實(shí)驗(yàn)——即只保留某一項(xiàng)指標(biāo)最好的90%數(shù)據(jù),然后訓(xùn)練模型,看看性能如何變化。
實(shí)驗(yàn)結(jié)果非常有趣,六種指標(biāo)被清晰地分成了三類。"浮空"和"足滑"屬于"有毒指標(biāo)",去掉它們后性能明顯提升,分別提升了約2.6和1.0個(gè)百分點(diǎn),因此被賦予高懲罰權(quán)重。"地面穿透"和"抖動(dòng)"屬于中性指標(biāo),過濾這些數(shù)據(jù)對性能幾乎沒有顯著影響,分配中等權(quán)重作為安全約束。而"速度違規(guī)"和"自碰撞"則屬于"友好指標(biāo)"——過濾掉這類數(shù)據(jù)后,性能反而下降了2.8和3.0個(gè)百分點(diǎn)!原因在于,關(guān)節(jié)速度高的動(dòng)作往往就是高難度、高強(qiáng)度的動(dòng)作,正是訓(xùn)練所需要的;而某些貼身格斗或舞蹈動(dòng)作在形式上可能有短暫的"自碰撞",卻包含了極為豐富的協(xié)調(diào)性訓(xùn)練信息。如果把這類數(shù)據(jù)刪掉,就是主動(dòng)丟棄了最有價(jià)值的訓(xùn)練素材。這個(gè)發(fā)現(xiàn)顛覆了很多人對"物理合理性過濾"的直覺理解。
還有一個(gè)非常有價(jià)值的發(fā)現(xiàn):僅僅按照物理質(zhì)量分從高到低排序,表現(xiàn)最好的并不是物理分最高的那10%數(shù)據(jù),而是物理分排在60%到70%之間的數(shù)據(jù)段,其成功率反而達(dá)到了96.3%。原因正是前面討論過的:物理分滿分的動(dòng)作往往是極其保守的靜止或慢速動(dòng)作,缺乏動(dòng)態(tài)豐富性;真正有價(jià)值的訓(xùn)練數(shù)據(jù),是那些"物理上過關(guān)、但動(dòng)作本身有相當(dāng)復(fù)雜度"的數(shù)據(jù)。這進(jìn)一步證明:單純追求物理合理性并不等于選出了好的訓(xùn)練數(shù)據(jù),必須把多樣性和復(fù)雜度也納入考量。
**七、真機(jī)部署:在真實(shí)機(jī)器人身上的檢驗(yàn)**
再好的仿真結(jié)果,如果到了真實(shí)機(jī)器人上就失效,那也只是空中樓閣。研究團(tuán)隊(duì)將用GQS 10%數(shù)據(jù)訓(xùn)練的策略,直接部署到了宇樹G1型號的真實(shí)人形機(jī)器人上,進(jìn)行了包括中國功夫、老城路舞蹈("Old Town Road")、Can Do Can Go舞蹈,以及單腿跳躍和手持箱子等多種動(dòng)作類別的追蹤測試,每類動(dòng)作進(jìn)行了10次試驗(yàn)。
量化結(jié)果同樣令人信服。在走路類動(dòng)作上,GQS 10%策略和全數(shù)據(jù)策略都達(dá)到了10次全部成功,但前者的關(guān)節(jié)位置誤差(0.0856 rad)明顯低于后者(0.1037 rad),提升了約17%。在跳躍類動(dòng)作上,GQS 10%達(dá)到了9次成功,全數(shù)據(jù)策略只有8次。在兩段舞蹈動(dòng)作上,GQS 10%分別達(dá)到8次和7次成功,而全數(shù)據(jù)策略只有7次和6次。平均而言,GQS 10%策略的真機(jī)成功率為85%,高于全數(shù)據(jù)策略的77.5%,平均關(guān)節(jié)誤差也低了約15.8%。
值得強(qiáng)調(diào)的是,這個(gè)部署是"零樣本"的——沒有針對真實(shí)機(jī)器人進(jìn)行任何額外的微調(diào)或調(diào)整,直接把仿真中訓(xùn)練好的策略拿來用。這種直接可用性在機(jī)器人領(lǐng)域非常珍貴,因?yàn)檎鎸?shí)機(jī)器人和仿真環(huán)境之間總存在差距(被稱為"仿真到現(xiàn)實(shí)的鴻溝")。GQS數(shù)據(jù)之所以能幫助跨越這條鴻溝,研究團(tuán)隊(duì)認(rèn)為有兩個(gè)原因:物理過濾去除了那些在仿真中能僥幸應(yīng)付、但在現(xiàn)實(shí)中必然失敗的"虛假動(dòng)作";而復(fù)雜度加權(quán)選出的高難度動(dòng)作,則讓機(jī)器人在訓(xùn)練中就練習(xí)了各種極端情況,提高了對現(xiàn)實(shí)世界不確定性的魯棒性。
**八、一個(gè)實(shí)用小工具:怎么快速決定用多少數(shù)據(jù)?**
對于想把GQS應(yīng)用到自己數(shù)據(jù)集上的研究者或工程師,還有一個(gè)自然而然的問題:應(yīng)該選多少比例的數(shù)據(jù)來訓(xùn)練?理論上需要做一系列實(shí)驗(yàn)來測試不同比例的效果,但這樣做成本很高。研究團(tuán)隊(duì)針對這個(gè)問題提出了一個(gè)輕量級的估算方法,叫做"自適應(yīng)比例選擇"(Adaptive Ratio Selection,ARS)。
ARS的核心邏輯是:最優(yōu)的數(shù)據(jù)比例,取決于這個(gè)數(shù)據(jù)集內(nèi)部的"多樣性密度"。如果一個(gè)數(shù)據(jù)集非常冗余(大量重復(fù)類似的動(dòng)作),就應(yīng)該更大力度地篩選,留下比例更小;如果一個(gè)數(shù)據(jù)集本身已經(jīng)很多樣化,那就需要保留更大比例以確保覆蓋面。
量化這種"多樣性密度"的方式是通過統(tǒng)計(jì)PAE嵌入向量的有效維度數(shù)——也就是說,這批數(shù)據(jù)的特征在高維空間里究竟"鋪開"了多少個(gè)有實(shí)質(zhì)意義的方向。用數(shù)學(xué)工具PCA(主成分分析)來提取,看需要多少個(gè)主成分才能解釋95%的數(shù)據(jù)方差。如果數(shù)據(jù)非常單調(diào),大部分?jǐn)?shù)據(jù)特征都集中在少數(shù)幾個(gè)方向上,有效維度就低;如果數(shù)據(jù)非常多樣,特征分散在許多方向上,有效維度就高。
根據(jù)這個(gè)有效維度數(shù),ARS給出的預(yù)測公式是:最優(yōu)比例 ≈ 0.5 × (有效維度數(shù)/總維度數(shù))的平方。在AMASS上,有效維度占總維度的47%,預(yù)測最優(yōu)比例為11%,與實(shí)驗(yàn)觀察到的10%高度吻合;在PHUMA上,有效維度占81%,預(yù)測為32.8%,與實(shí)驗(yàn)觀察到的30%同樣接近。這個(gè)工具雖然只在兩個(gè)數(shù)據(jù)集上得到了驗(yàn)證,但提供了一個(gè)有價(jià)值的快速估算起點(diǎn),能顯著減少調(diào)參的試錯(cuò)成本。
說到底,這項(xiàng)研究給出的核心信息是:在人形機(jī)器人的運(yùn)動(dòng)學(xué)習(xí)領(lǐng)域,盲目堆積數(shù)據(jù)并不等于提升智能,真正推動(dòng)進(jìn)步的是數(shù)據(jù)的質(zhì)量——具體體現(xiàn)在物理可行性、行為多樣性和動(dòng)作復(fù)雜度這三個(gè)維度的協(xié)同優(yōu)化上。用3%的精華數(shù)據(jù)打敗100%的原始數(shù)據(jù),這個(gè)結(jié)論在直覺上反常,但實(shí)驗(yàn)一次次地給出了同樣清晰的答案。
這件事對我們理解人工智能的學(xué)習(xí)機(jī)制有更廣泛的啟發(fā)意義:不僅在機(jī)器人領(lǐng)域,在語言模型、視覺模型乃至任何需要從數(shù)據(jù)中學(xué)習(xí)的系統(tǒng)中,數(shù)據(jù)質(zhì)量的戰(zhàn)略性角色都值得重新審視。當(dāng)下這個(gè)"數(shù)據(jù)規(guī)模就是一切"的流行敘事,或許需要加上一個(gè)重要的注腳——前提是這些數(shù)據(jù)得有價(jià)值。
如果這個(gè)話題讓你對數(shù)據(jù)質(zhì)量與機(jī)器學(xué)習(xí)的關(guān)系產(chǎn)生了更多興趣,可以通過論文編號arXiv:2606.06953查閱原文,深入了解每一個(gè)實(shí)驗(yàn)的具體細(xì)節(jié)和技術(shù)實(shí)現(xiàn)。
**Q&A**
Q1:LIMMT方法中的GQS三階段篩選是什么意思?
A:GQS(通用質(zhì)量篩選)分三步處理動(dòng)作數(shù)據(jù)。第一步是把每條數(shù)據(jù)放進(jìn)物理模擬器里檢驗(yàn),按六種物理違規(guī)打分,不合格的直接淘汰。第二步是用周期自動(dòng)編碼器把每條數(shù)據(jù)轉(zhuǎn)換成一個(gè)代表"動(dòng)作風(fēng)格"的向量坐標(biāo),建立動(dòng)作語義地圖。第三步是在這張地圖上通過"加權(quán)最遠(yuǎn)點(diǎn)采樣",均勻挑選覆蓋面廣且動(dòng)作復(fù)雜度高的子集,作為最終訓(xùn)練數(shù)據(jù)。
Q2:為什么隨機(jī)抽3%數(shù)據(jù)效果很差,而GQS挑選3%數(shù)據(jù)反而更好?
A:隨機(jī)抽取3%會保留很多物理上不可能實(shí)現(xiàn)的"壞數(shù)據(jù)",機(jī)器人試圖模仿這些動(dòng)作時(shí)會受到錯(cuò)誤引導(dǎo),同時(shí)數(shù)據(jù)分布完全繼承了原數(shù)據(jù)集的不均衡(比如大量重復(fù)走路數(shù)據(jù)),沒有有效覆蓋多樣的動(dòng)作類型。GQS則先刪掉了所有物理違規(guī)數(shù)據(jù),再用算法確保選出的數(shù)據(jù)覆蓋多種不同行為,并優(yōu)先保留動(dòng)作激烈、信息量大的片段,因此每一條數(shù)據(jù)都真實(shí)有效且互補(bǔ)性強(qiáng)。
Q3:GQS方法對機(jī)器人的實(shí)際部署有什么影響?
A:用GQS 10%數(shù)據(jù)訓(xùn)練的策略,在真實(shí)宇樹G1機(jī)器人上的平均成功率(85%)比用全數(shù)據(jù)訓(xùn)練的高出約7.5個(gè)百分點(diǎn),關(guān)節(jié)追蹤誤差平均降低約15.8%。更重要的是,這個(gè)策略不需要針對真實(shí)機(jī)器人做任何額外調(diào)整就能直接部署,說明GQS過濾掉了那些在仿真中能"蒙混過關(guān)"、在現(xiàn)實(shí)中卻會失敗的數(shù)據(jù),同時(shí)復(fù)雜動(dòng)作的訓(xùn)練提升了機(jī)器人應(yīng)對現(xiàn)實(shí)不確定性的能力。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.