![]()
讓我們想象一個場景:
機械臂夾起桌上的杯子,正準備把它放進盤子。下一秒,抓取失敗,杯子重新掉回桌面。
從時間上看,后一幅畫面發生得更晚;但從任務目標來看,機器人不僅沒有取得進展,反而退回了原點。人類很容易看出這種變化,視覺語言模型卻可能給出相反答案。
原因并不難理解。大量機器人視頻都按正常時間順序記錄:先接近物體,再抓取,最后完成放置。在這樣的數據里,「后面的畫面更接近任務完成」往往成立。模型訓練得越久,就越可能記住這條省力的捷徑。它能認出杯子、盤子和機械臂,也能描述畫面中的動作,卻未必真正理解:這些動作究竟有沒有推動任務向前。
針對這一問題,浙江大學等五所高校的研究團隊提出 EgoTSR。研究從第一人稱機器人視角出發,希望讓 VLM 學會判斷任務狀態,并把這種能力進一步擴展到長程規劃。團隊構建了包含 4600 萬條樣本的 EgoTSR-Data,并設計了三階段課程學習流程。
![]()
![]()
- 論文題目: From Perception to Planning: Evolving Ego-Centric Task-Oriented Spatiotemporal Reasoning via Curriculum Learning
- 研究團隊: 浙江大學、天津大學、青島大學、上海交通大學、新加坡國立大學等
- 論文地址:https://arxiv.org/pdf/2604.10517
- 代碼鏈接:https://github.com/Collab-Gen/EgoTSR
時間偏置:后出現的畫面,真的更接近任務完成嗎?
EgoTSR 關注的并不是傳統動作識別,而是一個更具體的問題:給定兩張來自同一任務視頻的圖像,哪一個狀態更接近任務目標?
例如:
把綠色杯子從桌上拿起來,放進白色盤子中。
模型不能只判斷圖中是否出現杯子和盤子,還要看杯子是否被抓住、是否正在移動、是否真正進入目標區域。
如果任務是「打開冰箱門」,門打開的狀態更接近完成;如果任務是「關閉冰箱門」,判斷恰好相反。同一幅圖的任務意義,會隨著目標發生變化。
真正可靠的模型還必須處理現實中的動作失敗和狀態回退:機械臂可能已經抓住物體,卻在移動過程中將其掉落;抽屜可能被拉開,隨后又因碰撞重新關閉;物體可能短暫到達目標區域,之后再次被移走。
因此,時間更晚并不意味著任務完成度一定更高。
研究團隊將模型依賴輸入順序進行判斷的現象稱為「時間順序偏差」,即 chronological bias。為了直接暴露這種捷徑,EgoTSR 采用了一個簡單但有效的辦法:把同一對圖像分別按照正向和反向順序交給模型。
假設圖像 B 比圖像 A 更接近任務完成。
第一次輸入為:
圖像 A,圖像 B。
正確答案是第二張圖。
隨后交換順序:
圖像 B,圖像 A。
正確答案必須隨之變成第一張圖。
如果模型始終選擇第二張圖,那么它可能并沒有分析物體狀態,而是在根據圖片位置猜測答案。
實驗中,這種現象非常明顯。以部分長任務評測為例,InternVL-8B 在正向輸入下的準確率接近99%,但交換圖像順序后,準確率降至約2%。表面上接近滿分的結果,經過反向測試后,暴露出嚴重的順序依賴。
三階段課程:先解釋,再內化,最后規劃
EgoTSR 沒有把全部數據直接混合訓練,而是按能力發展順序分成三個階段。
第一階段使用約 1500 萬條 CoT 數據:模型需要先描述兩張圖中的空間狀態,再比較哪張圖完成了更多必要動作,最后給出答案。這個階段的重點,是建立視覺狀態、任務目標和最終判斷之間的聯系。
第二階段使用約 1600 萬條 Tag 數據:詳細推理文本被移除,只保留圖像、任務和正確標簽。模型需要直接判斷哪張圖更接近完成。作者希望將第一階段形成的顯式推理,逐漸轉化為更快速的任務狀態判斷。
第三階段加入約 1500 萬條 LongTag 數據:把能力從單個動作擴展到長程任務。至此,三類數據合計 4600 萬條。
![]()
![]()
子任務規劃器:高層語義任務分解為多個細粒度子任務
「拿起杯子」是一個相對明確的原子任務,但真實機器人通常需要完成更復雜的目標。
例如:
打開冰箱,取出飲料,把飲料放到桌面,并重新關上冰箱門。
如果模型只看到「飲料已經被拿起」,可能會認為任務已經接近結束。但從完整目標來看,機器人還需要把飲料放到桌面,并關閉冰箱門。
為此,EgoTSR 引入了一個 Subtask Planner,也就是子任務規劃器。它根據初始場景和高層任務描述,生成一組具有明確順序的原子子任務。
上面的任務可以被拆解為:
- 打開冰箱門;
- 找到并抓取飲料;
- 將飲料從冰箱中取出;
- 把飲料放到桌面;
- 關閉冰箱門。
這組子任務構成了整個任務的「邏輯骨架」。
模型看到兩張圖后,不再只比較局部物體位置,而是進一步判斷:每張圖分別位于任務鏈的哪個階段,已經完成了多少必要步驟,后續還剩下哪些動作。
論文將長任務圖像對分為三個層次:同一子任務內部、相鄰子任務之間,以及跨越多個子任務的狀態比較。隨著跨度增加,模型需要利用的就不再只是局部視覺變化,而是整個任務的因果和順序結構。
值得注意的是,這里的「規劃」主要指高層任務分解和任務進度推理。EgoTSR 并不直接輸出機械臂的關節角、力矩或運動軌跡,而是為機器人提供「任務進行到哪里」和「后續還需要完成什么」的認知基礎。
雙層評測:既看是否「看清除」,也看是否「想明白」
研究團隊構建了 Dual-Level Evaluation Framework。
第一層是短程原子任務,考察模型能否捕捉細粒度空間變化,例如夾爪是否閉合、按鈕是否按下、物體是否進入容器。這一層主要診斷模型是否「看錯了」。
第二層是長程任務,要求模型結合子任務序列,判斷兩張圖在完整任務中的相對進度。這一層主要診斷模型是否「想錯了」。
兩個層級都加入了正向和反向輸入測試,用來檢查模型是否依賴圖像順序。
最終,EgoTSR 在長程任務上取得 92.4% 的平均準確率,短程任務表現約為 88%。在長程雙向評測中,正向準確率約 92.4%,反向約 92.3%,差距僅 0.1 個百分點。
消融實驗也說明了訓練順序的重要性。將 CoT、Tag 和 LongTag 混合訓練時,長任務準確率只有 69.6%;按「顯式推理 — 能力內化 — 長程規劃」的順序訓練后,準確率提升到 92.4%。去掉 Subtask Planner 后,準確率則下降到 81.1%。
![]()
![]()
從任務判斷走向任務完成度監測
除了定量評測,研究團隊還在人類操作視頻、模擬環境和真實機器人平臺上進行了案例驗證,涉及 LIBERO、SIMPLER、RoboTwin,以及 Franka、Agibot 和 So-100 等機器人平臺。
在「把綠色杯子放進白色盤子」的案例中,模型持續處理未經切分的完整視頻,并輸出一條任務完成度曲線。
當機械臂接近杯子時,曲線緩慢變化;完成抓取和放置等關鍵子任務時,完成度出現明顯上升;中間的搬運過程則保持相對穩定。
這意味著 EgoTSR 不僅可以比較兩張靜態圖,還具備用于長視頻任務監測的潛力,例如判斷機器人當前處于哪個階段、是否發生了動作回退,以及任務是否正在按照預期推進。
![]()
機器人需要的不只是「看見」
從靜態圖像識別走向真實機器人,模型面對的問題發生了根本變化。
在圖像問答中,識別出杯子、盤子和機械臂可能已經足夠;但在具身任務中,模型還需要理解這些物體之間的變化是否服務于當前目標。
機械臂動了,不代表任務取得了進展;視頻繼續播放,也不代表機器人越來越接近成功。
EgoTSR 的價值,一方面在于提供了一種從顯式推理逐步過渡到長程規劃的訓練路徑;另一方面,它通過正向和反向圖像對,為具身模型設計了一把更加嚴格的「尺子」。
當然,這項工作距離完整的通用機器人系統仍有明顯距離,但它至少揭示了一個容易被高準確率掩蓋的問題:
當一個模型聲稱自己理解了機器人視頻時,它究竟是在分析物體、動作和任務之間的因果關系,還是只是在重復「后一張圖通常更接近完成」這一數據規律?
對于希望進入真實世界的具身智能而言,回答這個問題,或許比單純提高幾個百分點的準確率更加重要。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.