網易首頁 > 網易號 > 正文申請入駐

30分鐘人類第一人稱視頻，零樣本教會機器人雙臂操作

2026-06-14 19:58:42　來源: 機器之心Pro

天津舉報

分享至

過去要 30 天機器人遙操作，現在只要戴上一副眼鏡走一走。當機器人的數據接口從實驗室搬到日常生活，制約 scale 的瓶頸就不再是數據量，而是數據接口本身。

HumanEgo 總覽：人類戴 Aria 眼鏡采集第一人稱視頻（左），轉化為交互中心表征并訓練 flow matching 策略（中），策略零樣本遷移到機器人——不受環境、相機、本體限制（右）。

視覺-語言大模型這幾年的成功，本質上吃的是一個廉價、可無限擴展的數據接口——互聯網。任何人寫博客、拍照片，都在為下一代大模型喂數據。

但機器人學習一直沒有這樣的接口。當前 SOTA 操作策略依賴機器人遙操作（teleoperation）數據：專業操作員通過控制器遠程操作機器人，把每一次抓取、放置手動"演示"給機器人。這條路又貴又慢，必須在裝備齊全的實驗室里完成，而且數據和機器人硬件強耦合——換一個機器人、換一個工作站，數據幾乎完全不能復用。

最近一年，學界開始嘗試把人類第一人稱視頻當作機器人的訓練數據，從 EgoMimic、EgoZero 到 AINA，不同團隊都在探索這條路。但已有工作大多沿著兩條路線展開：要么用人類視頻與機器人數據做協同訓練（co-training），要么先在數千小時視頻上做大規模預訓練——兩者都還沒有完全擺脫對機器人數據的依賴。一個自然的問題隨之而來：一個普通人，只拿一副智能眼鏡、幾分鐘視頻，能不能直接訓練出一個可部署的機器人策略？

來自馬里蘭大學（UMD）的團隊提出新框架HumanEgo，給出了肯定的答案：

只用 30 分鐘人類第一人稱視頻，不需要任何機器人數據、不需要針對機器人的后訓練、不需要互聯網級預訓練，就能在 4 個真實世界雙手協作任務上達到92.5%成功率，并零樣本遷移到不同機器人、相機與場景。

值得一提的是，HumanEgo 一經公開便在社區引發廣泛關注：X（推特）相關討論帖瀏覽量已接近10 萬，開源代碼在短短數日內收獲230+ GitHub star，不少研究者留言希望復現這套從人類視頻學習的流程。

論文標題：
HumanEgo: Zero-Shot Robot Learning from Minutes of Human Egocentric Videos
作者團隊：
Zhi (Leo) Wang, Botao He, Kelin Yu, Seungjae Lee, Ruohan Gao, Furong Huang, Yiannis Aloimonos（University of Maryland）
論文鏈接：
https://arxiv.org/abs/2605.24934
項目主頁：
https://humanego-ai.github.io
代碼倉庫：
https://github.com/TX-Leo/HumanEgo
完整視頻：
https://www.youtube.com/watch?v=pdL46diijuY

為什么"人類視頻"這么難直接拿來用？

讓普通人戴上 Meta Aria 這類智能眼鏡，就能在廚房、車間、辦公室里采集帶 6-DoF 頭部軌跡和 3D 手部關鍵點的高質量視頻。但人類視頻要直接訓練機器人，橫亙著兩道難關：

其一，跨形態的表征鴻溝（embodiment gap）。人手和機器人夾爪在視覺外觀和運動學上都不同：人手有 21 個關節、會自遮擋；機器人夾爪是金屬平行開合。直接用人手視頻訓練的策略，部署到機器人上必然失效。

其二，極少數據下的學習難題。 30 分鐘視頻僅約 60 條軌跡，這個數據量下主流模仿學習（ACT、Diffusion Policy）極易過擬合，更別提泛化到沒見過的場景。

數據采集：戴一副 Aria Gen1 眼鏡，在任意環境完成演示，每條演示只需幾秒，無需標定或專用工作站。

核心思路：

把表征建在"交互"上，而不是"身體"上

HumanEgo 的核心 insight 可以濃縮為一句話：機器人不該模仿人的身體，而該恢復任務相關的"手-物交互幾何"。

團隊把場景中每只手和每個物體都看作一個實體（entity），為每個實體計算一個 29 維的交互中心 Token（Interaction-Centric Token, ICT），編碼實體在參考系下的 6D 位姿、左右手相對該實體的位姿，以及抓取狀態。

系統架構：視覺端通過摳除人臂 + 渲染虛擬夾爪消除外觀差異；空間端用 ICT 序列編碼實體間關系；flow matching 策略配合三個密集輔助目標，從分鐘級人類數據學出雙手機器人動作。

這個表征有三個關鍵性質：

實體相對——每個 token 描述"手相對物體怎么靠近、抓取、運輸"，正是操作的本質信號；

形態無關——人手經過簡單重定向被抽象成"虛擬雙指夾爪"，無論人手還是 Trossen / UR5 / Franka 夾爪，都產生同樣的 token；

變長接口——場景里有幾個物體就有幾個 token，天然適配不同任務。

手到夾爪：人手 21 個關鍵點被重定向為一個 SE(3) 虛擬夾爪 + 1 維開合狀態。

物體一側，團隊用 Grounding DINO + SAM2 檢測分割，CoTracker3 跨幀追蹤關鍵點并三角化到 3D，再用 Orient-Anything 估計朝向。抓取時物體常被手遮擋，HumanEgo 引入運動學鎖定（kinematic latching）——從抓取那一刻起把物體位姿剛性綁定到手上，保證遮擋期間表征依然穩定連續。所有這些量都來自現成感知模型，無需任何人工標注。

視覺端，HumanEgo 用 SAM2 + LaMa摳除人手人臂，再把虛擬夾爪和物體關鍵點渲染回原圖，得到"看起來已經像機器人在操作"的本體無關觀測——用輕量渲染繞開了昂貴的域適應或圖像翻譯。

策略采用flow matching（比 diffusion 更快、比 ACT 更具表達力），并疊加三個密集輔助目標：物體運動預測、2D 軌跡回歸、潛在一致性。它們在 3D 物理、2D 視覺、潛在空間三個互補空間里預測場景如何演變，讓每條演示不再只產生一個動作監督，而是榨出四種密集信號——這正是低數據下高效學習的關鍵。

實驗：

92.5% 成功率，比遙操作高 41%

團隊在 4 個真實世界雙手任務上系統評估，分別考驗抓取放置、長程多步、接觸密集雙手協同、持續旋轉控制——其中拆疊杯子要求三步動作零誤差累積，澆花則要兩臂嚴格按時序配合。

Serve Bread：從任意位置抓起面包，平穩放到盤子中央。

Downstack Cups：長程多步——推倒、抓取、重新堆疊三個嵌套杯子，任一步出錯都會累積。

Water Flowers：接觸密集雙手協同——一臂舉噴頭，一臂開閥門，嚴格時序配合。

Adjust Table：握住搖把連續旋轉三整圈，全程不松手。

每個任務 40 次試驗，對比 5 個零樣本基線（EgoZero、PointPolicy、ZeroMimic、Track2Act、SPOT）與匹配時長的 ACT 遙操作基線。結果：

HumanEgo-30 在四個任務上全面領先；僅用 15 分鐘數據的 HumanEgo-15 已超過用 30 分鐘機器人數據訓練的 ACT。

92.5%平均成功率（30 分鐘人類視頻，四任務）；
僅 15 分鐘人類數據即達75%，已超過 30 分鐘遙操作的 51%；
比匹配時長的 ACT 遙操作高41%
8 分鐘人類視頻（57.5%）即超過30 分鐘機器人數據（52.5%）——3.75× 數據效率

五個零樣本基線只能捕捉操作的局部側面，在需要精確手-物推理的任務上集體失守（最高不超過 45%），HumanEgo 是唯一在四個任務上都保持高成功率的方法。

數據效率曲線：人類數據曲線全程高于機器人遙操作，8 分鐘即反超 30 分鐘遙操作。

更關鍵的是消融實驗。團隊對比五種表征配置發現：純視覺方法的天花板只有 32.5%，無論怎么摳圖、渲染；而一旦加入 ICT，成功率直接跳到 85%（+52.5pp），完整模型達 95%。顯式的交互中心空間表征，才是跨形態遷移的真正使能者。

表征消融：純視覺天花板 32.5%，加入 ICT 后躍升至 85%；三個輔助目標進一步帶來增益。

一個策略，零樣本適配多種機器人、相機與環境

把單一策略直接部署到 9 個分布外條件（不同機器人 / 相機 / 光照 / 物體）下，成功率全部維持在85–95%，無需任何重訓練或微調。

零樣本跨條件泛化：跨本體、跨相機、跨環境均保持 85–95% 成功率。

跨本體：同一策略零樣本部署到不同機器人手臂。

跨環境：更換背景、光照、干擾物，策略依然穩定。

跨設置：更換相機、視角、桌面高度，策略零樣本適配。

不止四個任務：更多真實世界能力

除四個主任務外，HumanEgo 同樣能學會一系列日常操作，全部來自分鐘級人類視頻：

給設備充電。

擰開瓶蓋。

開門。

開柜子。

抽取紙巾。

寫在最后：當數據接口從實驗室搬到日常

HumanEgo 單看是一項技術工作，但它真正想說的是一個更大的判斷：機器人學習的瓶頸，不是"數據太少"，而是"數據接口和機器人硬件綁死了"。

當可穿戴的第一人稱視頻成為新的數據接口，機器人數據收集就從"實驗室里的稀缺資源"變成"人人可參與、可設計的工作流"：任何人都能貢獻數據，采集可以發生在真實世界的任意角落，同一份數據可以跨多個機器人復用。團隊也指出了下一步方向——把這套范式擴展到多指靈巧操作、長程工業流程，以及從大規模人類視頻中持續學習。正如論文結尾所寫——有了對的表征和學習目標，人類第一人稱視頻可以成為機器人學習的通用數據接口。

視頻鏈接：https://mp.weixin.qq.com/s/C7rvC5-3WDndJJYTHEIIGA?click_id=129

HumanEgo 完整演示視頻（約 1 分 30 秒）：一鏡看完數據采集、方法原理與真實機器人執行。

關于團隊

HumanEgo 由馬里蘭大學（UMD）研究團隊完成，作者包括 Zhi (Leo) Wang、Botao He、Kelin Yu、Seungjae Lee、Ruohan Gao、Furong Huang、Yiannis Aloimonos。

一作王治是馬里蘭大學的研究者，研究聚焦于面向機器人學習的可擴展數據接口——如何讓人類經驗通過可穿戴感知 scale 成下一代通用操作策略，方向涵蓋跨形態學習與從人類視頻中高效學習。HumanEgo 正是這一思路的集中體現。

個人主頁：https://tx-leo.github.io

導師 Yiannis Aloimonos是馬里蘭大學計算機系教授、UMIACS 計算機視覺實驗室主任，主動視覺（active vision）與認知機器人領域的奠基性學者之一，長期研究視覺、行動與語言的交匯，致力于讓機器人像人一樣在與世界的交互中學習。

個人主頁：

https://robotics.umd.edu/clark/faculty/350/Yiannis-Aloimonos

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.