![]()
過去要 30 天機器人遙操作,現在只要戴上一副眼鏡走一走。 當機器人的數據接口從實驗室搬到日常生活,制約 scale 的瓶頸就不再是數據量,而是數據接口本身。
![]()
HumanEgo 總覽:人類戴 Aria 眼鏡采集第一人稱視頻(左),轉化為交互中心表征并訓練 flow matching 策略(中),策略零樣本遷移到機器人——不受環境、相機、本體限制(右)。
視覺-語言大模型這幾年的成功,本質上吃的是一個廉價、可無限擴展的數據接口——互聯網。任何人寫博客、拍照片,都在為下一代大模型喂數據。
但機器人學習一直沒有這樣的接口。當前 SOTA 操作策略依賴機器人遙操作(teleoperation)數據:專業操作員通過控制器遠程操作機器人,把每一次抓取、放置手動"演示"給機器人。這條路又貴又慢,必須在裝備齊全的實驗室里完成,而且數據和機器人硬件強耦合——換一個機器人、換一個工作站,數據幾乎完全不能復用。
最近一年,學界開始嘗試把人類第一人稱視頻當作機器人的訓練數據,從 EgoMimic、EgoZero 到 AINA,不同團隊都在探索這條路。但已有工作大多沿著兩條路線展開:要么用人類視頻與機器人數據做協同訓練(co-training),要么先在數千小時視頻上做大規模預訓練——兩者都還沒有完全擺脫對機器人數據的依賴。一個自然的問題隨之而來:一個普通人,只拿一副智能眼鏡、幾分鐘視頻,能不能直接訓練出一個可部署的機器人策略?
來自馬里蘭大學(UMD)的團隊提出新框架HumanEgo,給出了肯定的答案:
只用 30 分鐘人類第一人稱視頻,不需要任何機器人數據、不需要針對機器人的后訓練、不需要互聯網級預訓練,就能在 4 個真實世界雙手協作任務上達到92.5%成功率,并零樣本遷移到不同機器人、相機與場景。
值得一提的是,HumanEgo 一經公開便在社區引發廣泛關注:X(推特)相關討論帖瀏覽量已接近10 萬,開源代碼在短短數日內收獲230+ GitHub star,不少研究者留言希望復現這套從人類視頻學習的流程。
![]()
- 論文標題:
- HumanEgo: Zero-Shot Robot Learning from Minutes of Human Egocentric Videos
- 作者團隊:
- Zhi (Leo) Wang, Botao He, Kelin Yu, Seungjae Lee, Ruohan Gao, Furong Huang, Yiannis Aloimonos(University of Maryland)
- 論文鏈接:
- https://arxiv.org/abs/2605.24934
- 項目主頁:
- https://humanego-ai.github.io
- 代碼倉庫:
- https://github.com/TX-Leo/HumanEgo
- 完整視頻:
- https://www.youtube.com/watch?v=pdL46diijuY
為什么"人類視頻"這么難直接拿來用?
讓普通人戴上 Meta Aria 這類智能眼鏡,就能在廚房、車間、辦公室里采集帶 6-DoF 頭部軌跡和 3D 手部關鍵點的高質量視頻。但人類視頻要直接訓練機器人,橫亙著兩道難關:
其一,跨形態的表征鴻溝(embodiment gap)。 人手和機器人夾爪在視覺外觀和運動學上都不同:人手有 21 個關節、會自遮擋;機器人夾爪是金屬平行開合。直接用人手視頻訓練的策略,部署到機器人上必然失效。
其二,極少數據下的學習難題。 30 分鐘視頻僅約 60 條軌跡,這個數據量下主流模仿學習(ACT、Diffusion Policy)極易過擬合,更別提泛化到沒見過的場景。
![]()
![]()
數據采集:戴一副 Aria Gen1 眼鏡,在任意環境完成演示,每條演示只需幾秒,無需標定或專用工作站。
核心思路:
把表征建在"交互"上,而不是"身體"上
HumanEgo 的核心 insight 可以濃縮為一句話:機器人不該模仿人的身體,而該恢復任務相關的"手-物交互幾何"。
團隊把場景中每只手和每個物體都看作一個實體(entity),為每個實體計算一個 29 維的交互中心 Token(Interaction-Centric Token, ICT),編碼實體在參考系下的 6D 位姿、左右手相對該實體的位姿,以及抓取狀態。
![]()
系統架構:視覺端通過摳除人臂 + 渲染虛擬夾爪消除外觀差異;空間端用 ICT 序列編碼實體間關系;flow matching 策略配合三個密集輔助目標,從分鐘級人類數據學出雙手機器人動作。
這個表征有三個關鍵性質:
實體相對——每個 token 描述"手相對物體怎么靠近、抓取、運輸",正是操作的本質信號;
形態無關——人手經過簡單重定向被抽象成"虛擬雙指夾爪",無論人手還是 Trossen / UR5 / Franka 夾爪,都產生同樣的 token;
變長接口——場景里有幾個物體就有幾個 token,天然適配不同任務。
![]()
手到夾爪:人手 21 個關鍵點被重定向為一個 SE(3) 虛擬夾爪 + 1 維開合狀態。
物體一側,團隊用 Grounding DINO + SAM2 檢測分割,CoTracker3 跨幀追蹤關鍵點并三角化到 3D,再用 Orient-Anything 估計朝向。抓取時物體常被手遮擋,HumanEgo 引入運動學鎖定(kinematic latching)——從抓取那一刻起把物體位姿剛性綁定到手上,保證遮擋期間表征依然穩定連續。所有這些量都來自現成感知模型,無需任何人工標注。
視覺端,HumanEgo 用 SAM2 + LaMa摳除人手人臂,再把虛擬夾爪和物體關鍵點渲染回原圖,得到"看起來已經像機器人在操作"的本體無關觀測——用輕量渲染繞開了昂貴的域適應或圖像翻譯。
策略采用flow matching(比 diffusion 更快、比 ACT 更具表達力),并疊加三個密集輔助目標:物體運動預測、2D 軌跡回歸、潛在一致性。它們在 3D 物理、2D 視覺、潛在空間三個互補空間里預測場景如何演變,讓每條演示不再只產生一個動作監督,而是榨出四種密集信號——這正是低數據下高效學習的關鍵。
實驗:
92.5% 成功率,比遙操作高 41%
團隊在 4 個真實世界雙手任務上系統評估,分別考驗抓取放置、長程多步、接觸密集雙手協同、持續旋轉控制——其中拆疊杯子要求三步動作零誤差累積,澆花則要兩臂嚴格按時序配合。
![]()
Serve Bread:從任意位置抓起面包,平穩放到盤子中央。
![]()
Downstack Cups:長程多步——推倒、抓取、重新堆疊三個嵌套杯子,任一步出錯都會累積。
![]()
Water Flowers:接觸密集雙手協同——一臂舉噴頭,一臂開閥門,嚴格時序配合。
![]()
Adjust Table:握住搖把連續旋轉三整圈,全程不松手。
每個任務 40 次試驗,對比 5 個零樣本基線(EgoZero、PointPolicy、ZeroMimic、Track2Act、SPOT)與匹配時長的 ACT 遙操作基線。結果:
![]()
HumanEgo-30 在四個任務上全面領先;僅用 15 分鐘數據的 HumanEgo-15 已超過用 30 分鐘機器人數據訓練的 ACT。
- 92.5%平均成功率(30 分鐘人類視頻,四任務);
- 僅 15 分鐘人類數據即達75%,已超過 30 分鐘遙操作的 51%;
- 比匹配時長的 ACT 遙操作高41%
- 8 分鐘人類視頻(57.5%)即超過30 分鐘機器人數據(52.5%)——3.75× 數據效率
五個零樣本基線只能捕捉操作的局部側面,在需要精確手-物推理的任務上集體失守(最高不超過 45%),HumanEgo 是唯一在四個任務上都保持高成功率的方法。
![]()
數據效率曲線:人類數據曲線全程高于機器人遙操作,8 分鐘即反超 30 分鐘遙操作。
更關鍵的是消融實驗。團隊對比五種表征配置發現:純視覺方法的天花板只有 32.5%,無論怎么摳圖、渲染;而一旦加入 ICT,成功率直接跳到 85%(+52.5pp),完整模型達 95%。顯式的交互中心空間表征,才是跨形態遷移的真正使能者。
![]()
表征消融:純視覺天花板 32.5%,加入 ICT 后躍升至 85%;三個輔助目標進一步帶來增益。
一個策略,零樣本適配多種機器人、相機與環境
把單一策略直接部署到 9 個分布外條件(不同機器人 / 相機 / 光照 / 物體)下,成功率全部維持在85–95%,無需任何重訓練或微調。
![]()
零樣本跨條件泛化:跨本體、跨相機、跨環境均保持 85–95% 成功率。
![]()
跨本體:同一策略零樣本部署到不同機器人手臂。
![]()
跨環境:更換背景、光照、干擾物,策略依然穩定。
![]()
跨設置:更換相機、視角、桌面高度,策略零樣本適配。
不止四個任務:更多真實世界能力
除四個主任務外,HumanEgo 同樣能學會一系列日常操作,全部來自分鐘級人類視頻:
![]()
給設備充電。
![]()
擰開瓶蓋。
![]()
開門。
![]()
開柜子。
![]()
抽取紙巾。
寫在最后:當數據接口從實驗室搬到日常
HumanEgo 單看是一項技術工作,但它真正想說的是一個更大的判斷:機器人學習的瓶頸,不是"數據太少",而是"數據接口和機器人硬件綁死了"。
當可穿戴的第一人稱視頻成為新的數據接口,機器人數據收集就從"實驗室里的稀缺資源"變成"人人可參與、可設計的工作流":任何人都能貢獻數據,采集可以發生在真實世界的任意角落,同一份數據可以跨多個機器人復用。團隊也指出了下一步方向——把這套范式擴展到多指靈巧操作、長程工業流程,以及從大規模人類視頻中持續學習。正如論文結尾所寫——有了對的表征和學習目標,人類第一人稱視頻可以成為機器人學習的通用數據接口。
![]()
視頻鏈接:https://mp.weixin.qq.com/s/C7rvC5-3WDndJJYTHEIIGA?click_id=129
HumanEgo 完整演示視頻(約 1 分 30 秒):一鏡看完數據采集、方法原理與真實機器人執行。
關于團隊
HumanEgo 由馬里蘭大學(UMD)研究團隊完成,作者包括 Zhi (Leo) Wang、Botao He、Kelin Yu、Seungjae Lee、Ruohan Gao、Furong Huang、Yiannis Aloimonos。
一作 王治是馬里蘭大學的研究者,研究聚焦于面向機器人學習的可擴展數據接口——如何讓人類經驗通過可穿戴感知 scale 成下一代通用操作策略,方向涵蓋跨形態學習與從人類視頻中高效學習。HumanEgo 正是這一思路的集中體現。
個人主頁:https://tx-leo.github.io
導師 Yiannis Aloimonos是馬里蘭大學計算機系教授、UMIACS 計算機視覺實驗室主任,主動視覺(active vision)與認知機器人領域的奠基性學者之一,長期研究視覺、行動與語言的交匯,致力于讓機器人像人一樣在與世界的交互中學習。
個人主頁:
https://robotics.umd.edu/clark/faculty/350/Yiannis-Aloimonos
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.