網易首頁 > 網易號 > 正文申請入駐

換個順序，VLM「不會了」：EgoTSR讓機器人判斷任務是否真在推進

2026-07-05 17:13:08　來源: 機器之心Pro

河北舉報

分享至

讓我們想象一個場景：

機械臂夾起桌上的杯子，正準備把它放進盤子。下一秒，抓取失敗，杯子重新掉回桌面。

從時間上看，后一幅畫面發生得更晚；但從任務目標來看，機器人不僅沒有取得進展，反而退回了原點。人類很容易看出這種變化，視覺語言模型卻可能給出相反答案。

原因并不難理解。大量機器人視頻都按正常時間順序記錄：先接近物體，再抓取，最后完成放置。在這樣的數據里，「后面的畫面更接近任務完成」往往成立。模型訓練得越久，就越可能記住這條省力的捷徑。它能認出杯子、盤子和機械臂，也能描述畫面中的動作，卻未必真正理解：這些動作究竟有沒有推動任務向前。

針對這一問題，浙江大學等五所高校的研究團隊提出 EgoTSR。研究從第一人稱機器人視角出發，希望讓 VLM 學會判斷任務狀態，并把這種能力進一步擴展到長程規劃。團隊構建了包含 4600 萬條樣本的 EgoTSR-Data，并設計了三階段課程學習流程。

論文題目： From Perception to Planning: Evolving Ego-Centric Task-Oriented Spatiotemporal Reasoning via Curriculum Learning
研究團隊：浙江大學、天津大學、青島大學、上海交通大學、新加坡國立大學等
論文地址：https://arxiv.org/pdf/2604.10517
代碼鏈接：https://github.com/Collab-Gen/EgoTSR

時間偏置：后出現的畫面，真的更接近任務完成嗎？

EgoTSR 關注的并不是傳統動作識別，而是一個更具體的問題：給定兩張來自同一任務視頻的圖像，哪一個狀態更接近任務目標？

例如：

把綠色杯子從桌上拿起來，放進白色盤子中。

模型不能只判斷圖中是否出現杯子和盤子，還要看杯子是否被抓住、是否正在移動、是否真正進入目標區域。

如果任務是「打開冰箱門」，門打開的狀態更接近完成；如果任務是「關閉冰箱門」，判斷恰好相反。同一幅圖的任務意義，會隨著目標發生變化。

真正可靠的模型還必須處理現實中的動作失敗和狀態回退：機械臂可能已經抓住物體，卻在移動過程中將其掉落；抽屜可能被拉開，隨后又因碰撞重新關閉；物體可能短暫到達目標區域，之后再次被移走。

因此，時間更晚并不意味著任務完成度一定更高。

研究團隊將模型依賴輸入順序進行判斷的現象稱為「時間順序偏差」，即 chronological bias。為了直接暴露這種捷徑，EgoTSR 采用了一個簡單但有效的辦法：把同一對圖像分別按照正向和反向順序交給模型。

假設圖像 B 比圖像 A 更接近任務完成。

第一次輸入為：

圖像 A，圖像 B。

正確答案是第二張圖。

隨后交換順序：

圖像 B，圖像 A。

正確答案必須隨之變成第一張圖。

如果模型始終選擇第二張圖，那么它可能并沒有分析物體狀態，而是在根據圖片位置猜測答案。

實驗中，這種現象非常明顯。以部分長任務評測為例，InternVL-8B 在正向輸入下的準確率接近99%，但交換圖像順序后，準確率降至約2%。表面上接近滿分的結果，經過反向測試后，暴露出嚴重的順序依賴。

三階段課程：先解釋，再內化，最后規劃

EgoTSR 沒有把全部數據直接混合訓練，而是按能力發展順序分成三個階段。

第一階段使用約 1500 萬條 CoT 數據：模型需要先描述兩張圖中的空間狀態，再比較哪張圖完成了更多必要動作，最后給出答案。這個階段的重點，是建立視覺狀態、任務目標和最終判斷之間的聯系。

第二階段使用約 1600 萬條 Tag 數據：詳細推理文本被移除，只保留圖像、任務和正確標簽。模型需要直接判斷哪張圖更接近完成。作者希望將第一階段形成的顯式推理，逐漸轉化為更快速的任務狀態判斷。

第三階段加入約 1500 萬條 LongTag 數據：把能力從單個動作擴展到長程任務。至此，三類數據合計 4600 萬條。

子任務規劃器：高層語義任務分解為多個細粒度子任務

「拿起杯子」是一個相對明確的原子任務，但真實機器人通常需要完成更復雜的目標。

例如：

打開冰箱，取出飲料，把飲料放到桌面，并重新關上冰箱門。

如果模型只看到「飲料已經被拿起」，可能會認為任務已經接近結束。但從完整目標來看，機器人還需要把飲料放到桌面，并關閉冰箱門。

為此，EgoTSR 引入了一個 Subtask Planner，也就是子任務規劃器。它根據初始場景和高層任務描述，生成一組具有明確順序的原子子任務。

上面的任務可以被拆解為：

打開冰箱門；
找到并抓取飲料；
將飲料從冰箱中取出；
把飲料放到桌面；
關閉冰箱門。

這組子任務構成了整個任務的「邏輯骨架」。

模型看到兩張圖后，不再只比較局部物體位置，而是進一步判斷：每張圖分別位于任務鏈的哪個階段，已經完成了多少必要步驟，后續還剩下哪些動作。

論文將長任務圖像對分為三個層次：同一子任務內部、相鄰子任務之間，以及跨越多個子任務的狀態比較。隨著跨度增加，模型需要利用的就不再只是局部視覺變化，而是整個任務的因果和順序結構。

值得注意的是，這里的「規劃」主要指高層任務分解和任務進度推理。EgoTSR 并不直接輸出機械臂的關節角、力矩或運動軌跡，而是為機器人提供「任務進行到哪里」和「后續還需要完成什么」的認知基礎。

雙層評測：既看是否「看清除」，也看是否「想明白」

研究團隊構建了 Dual-Level Evaluation Framework。

第一層是短程原子任務，考察模型能否捕捉細粒度空間變化，例如夾爪是否閉合、按鈕是否按下、物體是否進入容器。這一層主要診斷模型是否「看錯了」。

第二層是長程任務，要求模型結合子任務序列，判斷兩張圖在完整任務中的相對進度。這一層主要診斷模型是否「想錯了」。

兩個層級都加入了正向和反向輸入測試，用來檢查模型是否依賴圖像順序。

最終，EgoTSR 在長程任務上取得 92.4% 的平均準確率，短程任務表現約為 88%。在長程雙向評測中，正向準確率約 92.4%，反向約 92.3%，差距僅 0.1 個百分點。

消融實驗也說明了訓練順序的重要性。將 CoT、Tag 和 LongTag 混合訓練時，長任務準確率只有 69.6%；按「顯式推理 — 能力內化 — 長程規劃」的順序訓練后，準確率提升到 92.4%。去掉 Subtask Planner 后，準確率則下降到 81.1%。

從任務判斷走向任務完成度監測

除了定量評測，研究團隊還在人類操作視頻、模擬環境和真實機器人平臺上進行了案例驗證，涉及 LIBERO、SIMPLER、RoboTwin，以及 Franka、Agibot 和 So-100 等機器人平臺。

在「把綠色杯子放進白色盤子」的案例中，模型持續處理未經切分的完整視頻，并輸出一條任務完成度曲線。

當機械臂接近杯子時，曲線緩慢變化；完成抓取和放置等關鍵子任務時，完成度出現明顯上升；中間的搬運過程則保持相對穩定。

這意味著 EgoTSR 不僅可以比較兩張靜態圖，還具備用于長視頻任務監測的潛力，例如判斷機器人當前處于哪個階段、是否發生了動作回退，以及任務是否正在按照預期推進。

機器人需要的不只是「看見」

從靜態圖像識別走向真實機器人，模型面對的問題發生了根本變化。

在圖像問答中，識別出杯子、盤子和機械臂可能已經足夠；但在具身任務中，模型還需要理解這些物體之間的變化是否服務于當前目標。

機械臂動了，不代表任務取得了進展；視頻繼續播放，也不代表機器人越來越接近成功。

EgoTSR 的價值，一方面在于提供了一種從顯式推理逐步過渡到長程規劃的訓練路徑；另一方面，它通過正向和反向圖像對，為具身模型設計了一把更加嚴格的「尺子」。

當然，這項工作距離完整的通用機器人系統仍有明顯距離，但它至少揭示了一個容易被高準確率掩蓋的問題：

當一個模型聲稱自己理解了機器人視頻時，它究竟是在分析物體、動作和任務之間的因果關系，還是只是在重復「后一張圖通常更接近完成」這一數據規律？

對于希望進入真實世界的具身智能而言，回答這個問題，或許比單純提高幾個百分點的準確率更加重要。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.