无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

30分鐘人類第一人稱視頻,零樣本教會機器人雙臂操作

0
分享至



過去要 30 天機器人遙操作,現在只要戴上一副眼鏡走一走。 當機器人的數據接口從實驗室搬到日常生活,制約 scale 的瓶頸就不再是數據量,而是數據接口本身。



HumanEgo 總覽:人類戴 Aria 眼鏡采集第一人稱視頻(左),轉化為交互中心表征并訓練 flow matching 策略(中),策略零樣本遷移到機器人——不受環境、相機、本體限制(右)。

視覺-語言大模型這幾年的成功,本質上吃的是一個廉價、可無限擴展的數據接口——互聯網。任何人寫博客、拍照片,都在為下一代大模型喂數據。

但機器人學習一直沒有這樣的接口。當前 SOTA 操作策略依賴機器人遙操作(teleoperation)數據:專業操作員通過控制器遠程操作機器人,把每一次抓取、放置手動"演示"給機器人。這條路又貴又慢,必須在裝備齊全的實驗室里完成,而且數據和機器人硬件強耦合——換一個機器人、換一個工作站,數據幾乎完全不能復用。

最近一年,學界開始嘗試把人類第一人稱視頻當作機器人的訓練數據,從 EgoMimic、EgoZero 到 AINA,不同團隊都在探索這條路。但已有工作大多沿著兩條路線展開:要么用人類視頻與機器人數據做協同訓練(co-training),要么先在數千小時視頻上做大規模預訓練——兩者都還沒有完全擺脫對機器人數據的依賴。一個自然的問題隨之而來:一個普通人,只拿一副智能眼鏡、幾分鐘視頻,能不能直接訓練出一個可部署的機器人策略

來自馬里蘭大學(UMD)的團隊提出新框架HumanEgo,給出了肯定的答案:

只用 30 分鐘人類第一人稱視頻,不需要任何機器人數據、不需要針對機器人的后訓練、不需要互聯網級預訓練,就能在 4 個真實世界雙手協作任務上達到92.5%成功率,并零樣本遷移到不同機器人、相機與場景。

值得一提的是,HumanEgo 一經公開便在社區引發廣泛關注:X(推特)相關討論帖瀏覽量已接近10 萬,開源代碼在短短數日內收獲230+ GitHub star,不少研究者留言希望復現這套從人類視頻學習的流程。



  • 論文標題:
  • HumanEgo: Zero-Shot Robot Learning from Minutes of Human Egocentric Videos
  • 作者團隊:
  • Zhi (Leo) Wang, Botao He, Kelin Yu, Seungjae Lee, Ruohan Gao, Furong Huang, Yiannis Aloimonos(University of Maryland)
  • 論文鏈接:
  • https://arxiv.org/abs/2605.24934
  • 項目主頁:
  • https://humanego-ai.github.io
  • 代碼倉庫:
  • https://github.com/TX-Leo/HumanEgo
  • 完整視頻:
  • https://www.youtube.com/watch?v=pdL46diijuY

為什么"人類視頻"這么難直接拿來用?

讓普通人戴上 Meta Aria 這類智能眼鏡,就能在廚房、車間、辦公室里采集帶 6-DoF 頭部軌跡和 3D 手部關鍵點的高質量視頻。但人類視頻要直接訓練機器人,橫亙著兩道難關:

其一,跨形態的表征鴻溝(embodiment gap)。 人手和機器人夾爪在視覺外觀運動學上都不同:人手有 21 個關節、會自遮擋;機器人夾爪是金屬平行開合。直接用人手視頻訓練的策略,部署到機器人上必然失效。

其二,極少數據下的學習難題。 30 分鐘視頻僅約 60 條軌跡,這個數據量下主流模仿學習(ACT、Diffusion Policy)極易過擬合,更別提泛化到沒見過的場景。





數據采集:戴一副 Aria Gen1 眼鏡,在任意環境完成演示,每條演示只需幾秒,無需標定或專用工作站。

核心思路:

把表征建在"交互"上,而不是"身體"上

HumanEgo 的核心 insight 可以濃縮為一句話:機器人不該模仿人的身體,而該恢復任務相關的"手-物交互幾何"

團隊把場景中每只手和每個物體都看作一個實體(entity),為每個實體計算一個 29 維的交互中心 Token(Interaction-Centric Token, ICT),編碼實體在參考系下的 6D 位姿、左右手相對該實體的位姿,以及抓取狀態。



系統架構:視覺端通過摳除人臂 + 渲染虛擬夾爪消除外觀差異;空間端用 ICT 序列編碼實體間關系;flow matching 策略配合三個密集輔助目標,從分鐘級人類數據學出雙手機器人動作。

這個表征有三個關鍵性質:

實體相對——每個 token 描述"手相對物體怎么靠近、抓取、運輸",正是操作的本質信號;

形態無關——人手經過簡單重定向被抽象成"虛擬雙指夾爪",無論人手還是 Trossen / UR5 / Franka 夾爪,都產生同樣的 token;

變長接口——場景里有幾個物體就有幾個 token,天然適配不同任務。



手到夾爪:人手 21 個關鍵點被重定向為一個 SE(3) 虛擬夾爪 + 1 維開合狀態。

物體一側,團隊用 Grounding DINO + SAM2 檢測分割,CoTracker3 跨幀追蹤關鍵點并三角化到 3D,再用 Orient-Anything 估計朝向。抓取時物體常被手遮擋,HumanEgo 引入運動學鎖定(kinematic latching)——從抓取那一刻起把物體位姿剛性綁定到手上,保證遮擋期間表征依然穩定連續。所有這些量都來自現成感知模型,無需任何人工標注。

視覺端,HumanEgo 用 SAM2 + LaMa摳除人手人臂,再把虛擬夾爪和物體關鍵點渲染回原圖,得到"看起來已經像機器人在操作"的本體無關觀測——用輕量渲染繞開了昂貴的域適應或圖像翻譯。

策略采用flow matching(比 diffusion 更快、比 ACT 更具表達力),并疊加三個密集輔助目標:物體運動預測、2D 軌跡回歸、潛在一致性。它們在 3D 物理、2D 視覺、潛在空間三個互補空間里預測場景如何演變,讓每條演示不再只產生一個動作監督,而是榨出四種密集信號——這正是低數據下高效學習的關鍵。

實驗:

92.5% 成功率,比遙操作高 41%

團隊在 4 個真實世界雙手任務上系統評估,分別考驗抓取放置、長程多步、接觸密集雙手協同、持續旋轉控制——其中拆疊杯子要求三步動作零誤差累積,澆花則要兩臂嚴格按時序配合。



Serve Bread:從任意位置抓起面包,平穩放到盤子中央。



Downstack Cups:長程多步——推倒、抓取、重新堆疊三個嵌套杯子,任一步出錯都會累積。



Water Flowers:接觸密集雙手協同——一臂舉噴頭,一臂開閥門,嚴格時序配合。



Adjust Table:握住搖把連續旋轉三整圈,全程不松手。

每個任務 40 次試驗,對比 5 個零樣本基線(EgoZero、PointPolicy、ZeroMimic、Track2Act、SPOT)與匹配時長的 ACT 遙操作基線。結果:



HumanEgo-30 在四個任務上全面領先;僅用 15 分鐘數據的 HumanEgo-15 已超過用 30 分鐘機器人數據訓練的 ACT。

  • 92.5%平均成功率(30 分鐘人類視頻,四任務);
  • 僅 15 分鐘人類數據即達75%,已超過 30 分鐘遙操作的 51%;
  • 比匹配時長的 ACT 遙操作高41%
  • 8 分鐘人類視頻(57.5%)即超過30 分鐘機器人數據(52.5%)——3.75× 數據效率

五個零樣本基線只能捕捉操作的局部側面,在需要精確手-物推理的任務上集體失守(最高不超過 45%),HumanEgo 是唯一在四個任務上都保持高成功率的方法。



數據效率曲線:人類數據曲線全程高于機器人遙操作,8 分鐘即反超 30 分鐘遙操作。

更關鍵的是消融實驗。團隊對比五種表征配置發現:純視覺方法的天花板只有 32.5%,無論怎么摳圖、渲染;而一旦加入 ICT,成功率直接跳到 85%(+52.5pp),完整模型達 95%。顯式的交互中心空間表征,才是跨形態遷移的真正使能者



表征消融:純視覺天花板 32.5%,加入 ICT 后躍升至 85%;三個輔助目標進一步帶來增益。

一個策略,零樣本適配多種機器人、相機與環境

把單一策略直接部署到 9 個分布外條件(不同機器人 / 相機 / 光照 / 物體)下,成功率全部維持在85–95%,無需任何重訓練或微調。



零樣本跨條件泛化:跨本體、跨相機、跨環境均保持 85–95% 成功率。



跨本體:同一策略零樣本部署到不同機器人手臂。



跨環境:更換背景、光照、干擾物,策略依然穩定。



跨設置:更換相機、視角、桌面高度,策略零樣本適配。

不止四個任務:更多真實世界能力

除四個主任務外,HumanEgo 同樣能學會一系列日常操作,全部來自分鐘級人類視頻:



給設備充電。



擰開瓶蓋。



開門。



開柜子。



抽取紙巾。

寫在最后:當數據接口從實驗室搬到日常

HumanEgo 單看是一項技術工作,但它真正想說的是一個更大的判斷:機器人學習的瓶頸,不是"數據太少",而是"數據接口和機器人硬件綁死了"

當可穿戴的第一人稱視頻成為新的數據接口,機器人數據收集就從"實驗室里的稀缺資源"變成"人人可參與、可設計的工作流":任何人都能貢獻數據,采集可以發生在真實世界的任意角落,同一份數據可以跨多個機器人復用。團隊也指出了下一步方向——把這套范式擴展到多指靈巧操作、長程工業流程,以及從大規模人類視頻中持續學習。正如論文結尾所寫——有了對的表征和學習目標,人類第一人稱視頻可以成為機器人學習的通用數據接口。



視頻鏈接:https://mp.weixin.qq.com/s/C7rvC5-3WDndJJYTHEIIGA?click_id=129

HumanEgo 完整演示視頻(約 1 分 30 秒):一鏡看完數據采集、方法原理與真實機器人執行。

關于團隊

HumanEgo 由馬里蘭大學(UMD)研究團隊完成,作者包括 Zhi (Leo) Wang、Botao He、Kelin Yu、Seungjae Lee、Ruohan Gao、Furong Huang、Yiannis Aloimonos。

一作 王治是馬里蘭大學的研究者,研究聚焦于面向機器人學習的可擴展數據接口——如何讓人類經驗通過可穿戴感知 scale 成下一代通用操作策略,方向涵蓋跨形態學習與從人類視頻中高效學習。HumanEgo 正是這一思路的集中體現。

個人主頁:https://tx-leo.github.io

導師 Yiannis Aloimonos是馬里蘭大學計算機系教授、UMIACS 計算機視覺實驗室主任,主動視覺(active vision)與認知機器人領域的奠基性學者之一,長期研究視覺、行動與語言的交匯,致力于讓機器人像人一樣在與世界的交互中學習。

個人主頁:

https://robotics.umd.edu/clark/faculty/350/Yiannis-Aloimonos

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
體壇丑聞!嗜賭只是冰山一角,婚內出軌睡有婦之夫,太毀三觀

體壇丑聞!嗜賭只是冰山一角,婚內出軌睡有婦之夫,太毀三觀

橙星文娛
2026-04-25 11:14:17
少林寺新方丈釋印樂上任僅10個月,資金驟減800萬

少林寺新方丈釋印樂上任僅10個月,資金驟減800萬

阿諬體育評論
2026-06-11 21:10:35
近三十多年中國經營最成功的城市(二)

近三十多年中國經營最成功的城市(二)

阜成門六號院
2026-06-13 18:36:35
馬科斯萬萬沒想到,強震沒換回中國一頂帳篷,等來的是一紙制裁令

馬科斯萬萬沒想到,強震沒換回中國一頂帳篷,等來的是一紙制裁令

最美的巧合
2026-06-14 04:40:47
奇怪!南極有1.2億只企鵝,每天排便量約5000噸,為何還那么干凈

奇怪!南極有1.2億只企鵝,每天排便量約5000噸,為何還那么干凈

離離言幾許
2026-06-07 18:28:59
山姆買到“臨期”食品,怎能反怪消費者 | 新京報快評

山姆買到“臨期”食品,怎能反怪消費者 | 新京報快評

新京報
2026-06-13 19:22:35
慢走再次被關注!醫生發現:走得越多,癌癥患者壽命或越長?真假

慢走再次被關注!醫生發現:走得越多,癌癥患者壽命或越長?真假

垚垚分享健康
2026-06-14 20:30:09
好萊塢富二代陰鷙癲狂,將華裔妻子全家團滅,光天化日丟入垃圾桶

好萊塢富二代陰鷙癲狂,將華裔妻子全家團滅,光天化日丟入垃圾桶

深夜探案館
2026-06-14 01:03:12
畢業啦!谷愛凌曬斯坦福畢業照,氣質身材完美并存

畢業啦!谷愛凌曬斯坦福畢業照,氣質身材完美并存

東方不敗然多多
2026-06-14 14:17:21
臺媒集體炸鍋,直呼臺灣海峽沒了

臺媒集體炸鍋,直呼臺灣海峽沒了

果媽聊娛樂
2026-06-14 18:45:19
重磅!中美金融大佬預言:2026全球金融危機,普通人如何保命?

重磅!中美金融大佬預言:2026全球金融危機,普通人如何保命?

叮當當科技
2026-06-14 20:15:12
晚飯七分飽被推翻了?醫生:過了65歲,吃飯盡量要做到這5點

晚飯七分飽被推翻了?醫生:過了65歲,吃飯盡量要做到這5點

健康科普365
2026-06-14 18:10:08
一場1-1!揪出巴西3大“水貨” 表現拉胯 恐被安帥棄用

一場1-1!揪出巴西3大“水貨” 表現拉胯 恐被安帥棄用

生活新鮮市
2026-06-14 14:59:27
開封男童已丟3天,關鍵線索曝光!奶奶前后說法不一,果然有蹊蹺

開封男童已丟3天,關鍵線索曝光!奶奶前后說法不一,果然有蹊蹺

觀察鑒娛
2026-06-14 15:55:49
李子柒的新身份

李子柒的新身份

新京報
2026-06-14 12:39:09
變天了!國家隊1.6萬億大撤退!A股“躺贏”的時代徹底翻篇了

變天了!國家隊1.6萬億大撤退!A股“躺贏”的時代徹底翻篇了

啟迪你的思維
2026-06-14 13:08:54
快訊!臺灣沈富雄表態了!

快訊!臺灣沈富雄表態了!

故事終將光明磊落
2026-06-14 13:37:09
保時捷撞上兩車后,火速逃離現場!北京警方:姐弟兩人,一個刑拘一個拘留

保時捷撞上兩車后,火速逃離現場!北京警方:姐弟兩人,一個刑拘一個拘留

都市快報橙柿互動
2026-06-14 00:39:15
你信嗎?反正我信了!俄羅斯高官稱:75.5%的中國青年愿意學俄語

你信嗎?反正我信了!俄羅斯高官稱:75.5%的中國青年愿意學俄語

瑜說還休
2026-06-14 19:53:49
上海這晚,女演員們的直角肩,都敗給了不胖不瘦的劉浩存

上海這晚,女演員們的直角肩,都敗給了不胖不瘦的劉浩存

阿訊說天下
2026-06-14 20:30:22
2026-06-14 21:27:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
13256文章數 142669關注度
往期回顧 全部

科技要聞

Anthropic最強模型被禁,傳亞馬遜通風報信

頭條要聞

伊朗球員受訪 反問美記者:我在美國安全嗎

頭條要聞

伊朗球員受訪 反問美記者:我在美國安全嗎

體育要聞

8年8隊奪冠,鄧肯那句話,現在還給了馬刺

娛樂要聞

鄧超攜子觀戰NBA,等等帥氣十足

財經要聞

金價跌至900元關口,大媽又來抄底了!

汽車要聞

綜合續航超1600km/零百加速4秒級 2027款星途ES預售18.99萬起

態度原創

健康
教育
時尚
親子
軍事航空

老人、小孩、孕婦,吃粽子有啥風險

教育要聞

高三生必看!四川省本科高校2026年招生章程要點匯總

世界杯的“頭”等大事,來了

親子要聞

去小院看爺爺奶奶,一見面就親的不行,還得是大孫子隔輩親啊!

軍事要聞

特朗普:美伊協議周日簽 還有終極手段

無障礙瀏覽 進入關懷版