无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

換個順序,VLM「不會了」:EgoTSR讓機器人判斷任務是否真在推進

0
分享至



讓我們想象一個場景:

機械臂夾起桌上的杯子,正準備把它放進盤子。下一秒,抓取失敗,杯子重新掉回桌面。

從時間上看,后一幅畫面發生得更晚;但從任務目標來看,機器人不僅沒有取得進展,反而退回了原點。人類很容易看出這種變化,視覺語言模型卻可能給出相反答案。

原因并不難理解。大量機器人視頻都按正常時間順序記錄:先接近物體,再抓取,最后完成放置。在這樣的數據里,「后面的畫面更接近任務完成」往往成立。模型訓練得越久,就越可能記住這條省力的捷徑。它能認出杯子、盤子和機械臂,也能描述畫面中的動作,卻未必真正理解:這些動作究竟有沒有推動任務向前。

針對這一問題,浙江大學等五所高校的研究團隊提出 EgoTSR。研究從第一人稱機器人視角出發,希望讓 VLM 學會判斷任務狀態,并把這種能力進一步擴展到長程規劃。團隊構建了包含 4600 萬條樣本的 EgoTSR-Data,并設計了三階段課程學習流程。





  • 論文題目: From Perception to Planning: Evolving Ego-Centric Task-Oriented Spatiotemporal Reasoning via Curriculum Learning
  • 研究團隊: 浙江大學、天津大學、青島大學、上海交通大學、新加坡國立大學等
  • 論文地址:https://arxiv.org/pdf/2604.10517
  • 代碼鏈接:https://github.com/Collab-Gen/EgoTSR

時間偏置:后出現的畫面,真的更接近任務完成嗎?

EgoTSR 關注的并不是傳統動作識別,而是一個更具體的問題:給定兩張來自同一任務視頻的圖像,哪一個狀態更接近任務目標?

例如:

把綠色杯子從桌上拿起來,放進白色盤子中。

模型不能只判斷圖中是否出現杯子和盤子,還要看杯子是否被抓住、是否正在移動、是否真正進入目標區域。

如果任務是「打開冰箱門」,門打開的狀態更接近完成;如果任務是「關閉冰箱門」,判斷恰好相反。同一幅圖的任務意義,會隨著目標發生變化。

真正可靠的模型還必須處理現實中的動作失敗和狀態回退:機械臂可能已經抓住物體,卻在移動過程中將其掉落;抽屜可能被拉開,隨后又因碰撞重新關閉;物體可能短暫到達目標區域,之后再次被移走。

因此,時間更晚并不意味著任務完成度一定更高。

研究團隊將模型依賴輸入順序進行判斷的現象稱為「時間順序偏差」,即 chronological bias。為了直接暴露這種捷徑,EgoTSR 采用了一個簡單但有效的辦法:把同一對圖像分別按照正向和反向順序交給模型。

假設圖像 B 比圖像 A 更接近任務完成。

第一次輸入為:

圖像 A,圖像 B。

正確答案是第二張圖。

隨后交換順序:

圖像 B,圖像 A。

正確答案必須隨之變成第一張圖。

如果模型始終選擇第二張圖,那么它可能并沒有分析物體狀態,而是在根據圖片位置猜測答案。

實驗中,這種現象非常明顯。以部分長任務評測為例,InternVL-8B 在正向輸入下的準確率接近99%,但交換圖像順序后,準確率降至約2%。表面上接近滿分的結果,經過反向測試后,暴露出嚴重的順序依賴。

三階段課程:先解釋,再內化,最后規劃

EgoTSR 沒有把全部數據直接混合訓練,而是按能力發展順序分成三個階段。

第一階段使用約 1500 萬條 CoT 數據:模型需要先描述兩張圖中的空間狀態,再比較哪張圖完成了更多必要動作,最后給出答案。這個階段的重點,是建立視覺狀態、任務目標和最終判斷之間的聯系。

第二階段使用約 1600 萬條 Tag 數據:詳細推理文本被移除,只保留圖像、任務和正確標簽。模型需要直接判斷哪張圖更接近完成。作者希望將第一階段形成的顯式推理,逐漸轉化為更快速的任務狀態判斷。

第三階段加入約 1500 萬條 LongTag 數據:把能力從單個動作擴展到長程任務。至此,三類數據合計 4600 萬條。





子任務規劃器:高層語義任務分解為多個細粒度子任務

「拿起杯子」是一個相對明確的原子任務,但真實機器人通常需要完成更復雜的目標。

例如:

打開冰箱,取出飲料,把飲料放到桌面,并重新關上冰箱門。

如果模型只看到「飲料已經被拿起」,可能會認為任務已經接近結束。但從完整目標來看,機器人還需要把飲料放到桌面,并關閉冰箱門。

為此,EgoTSR 引入了一個 Subtask Planner,也就是子任務規劃器。它根據初始場景和高層任務描述,生成一組具有明確順序的原子子任務。

上面的任務可以被拆解為:

  1. 打開冰箱門;
  2. 找到并抓取飲料;
  3. 將飲料從冰箱中取出;
  4. 把飲料放到桌面;
  5. 關閉冰箱門。

這組子任務構成了整個任務的「邏輯骨架」。

模型看到兩張圖后,不再只比較局部物體位置,而是進一步判斷:每張圖分別位于任務鏈的哪個階段,已經完成了多少必要步驟,后續還剩下哪些動作。

論文將長任務圖像對分為三個層次:同一子任務內部、相鄰子任務之間,以及跨越多個子任務的狀態比較。隨著跨度增加,模型需要利用的就不再只是局部視覺變化,而是整個任務的因果和順序結構。

值得注意的是,這里的「規劃」主要指高層任務分解和任務進度推理。EgoTSR 并不直接輸出機械臂的關節角、力矩或運動軌跡,而是為機器人提供「任務進行到哪里」和「后續還需要完成什么」的認知基礎。

雙層評測:既看是否「看清除」,也看是否「想明白」

研究團隊構建了 Dual-Level Evaluation Framework。

第一層是短程原子任務,考察模型能否捕捉細粒度空間變化,例如夾爪是否閉合、按鈕是否按下、物體是否進入容器。這一層主要診斷模型是否「看錯了」。

第二層是長程任務,要求模型結合子任務序列,判斷兩張圖在完整任務中的相對進度。這一層主要診斷模型是否「想錯了」。

兩個層級都加入了正向和反向輸入測試,用來檢查模型是否依賴圖像順序。

最終,EgoTSR 在長程任務上取得 92.4% 的平均準確率,短程任務表現約為 88%。在長程雙向評測中,正向準確率約 92.4%,反向約 92.3%,差距僅 0.1 個百分點。

消融實驗也說明了訓練順序的重要性。將 CoT、Tag 和 LongTag 混合訓練時,長任務準確率只有 69.6%;按「顯式推理 — 能力內化 — 長程規劃」的順序訓練后,準確率提升到 92.4%。去掉 Subtask Planner 后,準確率則下降到 81.1%。





從任務判斷走向任務完成度監測

除了定量評測,研究團隊還在人類操作視頻、模擬環境和真實機器人平臺上進行了案例驗證,涉及 LIBERO、SIMPLER、RoboTwin,以及 Franka、Agibot 和 So-100 等機器人平臺。

在「把綠色杯子放進白色盤子」的案例中,模型持續處理未經切分的完整視頻,并輸出一條任務完成度曲線。

當機械臂接近杯子時,曲線緩慢變化;完成抓取和放置等關鍵子任務時,完成度出現明顯上升;中間的搬運過程則保持相對穩定。

這意味著 EgoTSR 不僅可以比較兩張靜態圖,還具備用于長視頻任務監測的潛力,例如判斷機器人當前處于哪個階段、是否發生了動作回退,以及任務是否正在按照預期推進。



機器人需要的不只是「看見」


從靜態圖像識別走向真實機器人,模型面對的問題發生了根本變化。

在圖像問答中,識別出杯子、盤子和機械臂可能已經足夠;但在具身任務中,模型還需要理解這些物體之間的變化是否服務于當前目標。

機械臂動了,不代表任務取得了進展;視頻繼續播放,也不代表機器人越來越接近成功。

EgoTSR 的價值,一方面在于提供了一種從顯式推理逐步過渡到長程規劃的訓練路徑;另一方面,它通過正向和反向圖像對,為具身模型設計了一把更加嚴格的「尺子」。

當然,這項工作距離完整的通用機器人系統仍有明顯距離,但它至少揭示了一個容易被高準確率掩蓋的問題:

當一個模型聲稱自己理解了機器人視頻時,它究竟是在分析物體、動作和任務之間的因果關系,還是只是在重復「后一張圖通常更接近完成」這一數據規律?

對于希望進入真實世界的具身智能而言,回答這個問題,或許比單純提高幾個百分點的準確率更加重要。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
14球對70球,15球對19球!大羅徹底淪為笑話,被姆巴佩全面碾壓!

14球對70球,15球對19球!大羅徹底淪為笑話,被姆巴佩全面碾壓!

陌識
2026-07-05 07:18:08
韓國央行警示三星、SK海力士杠桿ETF或加劇市場波動

韓國央行警示三星、SK海力士杠桿ETF或加劇市場波動

財聯社
2026-07-05 15:50:10
賈玲巴黎周“一臉男相”!不愛笑也沒梨渦眼神犀利,梳大背頭好酷

賈玲巴黎周“一臉男相”!不愛笑也沒梨渦眼神犀利,梳大背頭好酷

軒逸阿II
2026-01-20 07:54:29
先進封裝迎來新風口!這個新方向要走出長期行情

先進封裝迎來新風口!這個新方向要走出長期行情

花小貓的美食日常
2026-07-05 19:55:29
淘汰賽變成全武行!這個主裁太離譜,前裁判怒了:應取消執法資格

淘汰賽變成全武行!這個主裁太離譜,前裁判怒了:應取消執法資格

萌蘭聊個球
2026-07-05 08:21:47
日本若與中國交戰,賴岳謙:中國可能會讓日本把二戰的血債血還

日本若與中國交戰,賴岳謙:中國可能會讓日本把二戰的血債血還

精彩一網打盡
2026-05-22 03:51:48
東北3歲網紅小吃播不是侏儒癥,掉下每一粒米飯都撿起來吃

東北3歲網紅小吃播不是侏儒癥,掉下每一粒米飯都撿起來吃

九方魚論
2026-07-05 20:27:49
馬赫雷斯宣布退出國家隊:12年國腳生涯落幕

馬赫雷斯宣布退出國家隊:12年國腳生涯落幕

快樂加載中21
2026-07-04 01:19:36
韓紅被罵才幾天,黑歷史被扒,央媒出手銳評,句句說到打工人心坎

韓紅被罵才幾天,黑歷史被扒,央媒出手銳評,句句說到打工人心坎

聊歷史的阿稼
2026-07-05 20:41:16
0比2北京國安不到24小時,山東泰山作出重要決定,期待有最新結果

0比2北京國安不到24小時,山東泰山作出重要決定,期待有最新結果

王大發不懂球
2026-07-05 20:31:10
快訊!臺灣官員:大陸又有新動作了!

快訊!臺灣官員:大陸又有新動作了!

故事終將光明磊落
2026-07-05 12:10:21
“女兒沒做過的醫美60歲老爸先做上了…?”哈哈哈做完瞬間解鎖善良人格!

“女兒沒做過的醫美60歲老爸先做上了…?”哈哈哈做完瞬間解鎖善良人格!

浪花媽媽
2026-07-04 20:49:38
陪盧秀燕赴臺南幫謝龍介輔選,連勝文:藍色是不放棄的顏色

陪盧秀燕赴臺南幫謝龍介輔選,連勝文:藍色是不放棄的顏色

海峽導報社
2026-07-04 21:43:09
我59歲才頓悟一個道理:如果別人請客不想去,千萬別傻傻地回“有事去不了,下次再約”,高情商的人這樣回應

我59歲才頓悟一個道理:如果別人請客不想去,千萬別傻傻地回“有事去不了,下次再約”,高情商的人這樣回應

心理觀察局
2026-05-13 09:07:23
碾壓級平替!曼聯 8000 萬撿漏真核,完爆熱刺 8500 萬水貨新援

碾壓級平替!曼聯 8000 萬撿漏真核,完爆熱刺 8500 萬水貨新援

瀾歸序
2026-07-05 08:11:44
穆里尼奧力保!皇馬鐵了心甩賣,邊緣替補世界杯封神打臉高層

穆里尼奧力保!皇馬鐵了心甩賣,邊緣替補世界杯封神打臉高層

瀾歸序
2026-07-05 05:37:57
杜鋒卸任后廣東放大招!1舉動引猜想,新帥露端倪,11冠王換玩法

杜鋒卸任后廣東放大招!1舉動引猜想,新帥露端倪,11冠王換玩法

萌蘭聊個球
2026-07-05 14:43:29
女單4強全部出爐!誕生3大不可思議,孫穎莎強勢,蒯曼極限大逆轉

女單4強全部出爐!誕生3大不可思議,孫穎莎強勢,蒯曼極限大逆轉

南海浪花
2026-07-05 13:12:34
Netflix出品,這部韓劇后勁太大了

Netflix出品,這部韓劇后勁太大了

來看美劇
2026-07-04 23:53:53
下午2點!CCTV5全程直播 中國男籃生死戰一觸即發 贏球出線輸球回家

下午2點!CCTV5全程直播 中國男籃生死戰一觸即發 贏球出線輸球回家

云隱南山
2026-07-05 15:50:22
2026-07-05 23:27:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
13442文章數 142688關注度
往期回顧 全部

科技要聞

華為:邏輯折疊將大幅提升麒麟CPU核心頻率

頭條要聞

未獲明確同意民辦社康給女患者打激素 處罰決定書披露

頭條要聞

未獲明確同意民辦社康給女患者打激素 處罰決定書披露

體育要聞

姆巴佩點走巴拉圭:巴黎三代左鋒傳承

娛樂要聞

霉霉婚禮照片泄露 有四人違規

財經要聞

揭秘跨境“對敲”換匯黑產

汽車要聞

方程豹鈦9內飾曝光 用上了長聯屏設計/下半年上市

態度原創

教育
藝術
親子
游戲
公開課

教育要聞

將牛拴在樹上繩長5米,每平米草重5斤,牛可吃幾斤草呢

藝術要聞

畫布上邂逅一場光影之戀:俄羅斯油畫大師的溫柔人間

親子要聞

奉勸大家:超市里這5種食物少給孩子吃,看似有營養,實則沒好處

《33號遠征隊》總監稱其是《失落的奧德賽》精神續作

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版