![]()
本文第一作者為西湖大學科研助理藺明慧,通訊作者為阿里巴巴達摩院算法專家黃思騰和西湖大學人工智能系副主任王東林。所有作者均來自西湖大學機器智能實驗室(MiLAB)和西湖機器人科技有限公司,團隊工作 ReconVLA 近期獲得 AAAI 2026 最佳論文獎。
具身智能要想真正在復雜場景中落地,離不開對長程任務(Long-horizon tasks)的穩定執行。然而,現有的 VLA(視覺-語言-動作)模型大多停留在「動作模仿」階段,缺乏對物理世界動態變換的深刻理解,在長線操作中極易陷入因果混淆;同時,傳統通過直接堆疊多幀圖像來引入時間維度的方法,不僅容易引入大量靜態背景冗余,更會帶來災難性的推理延遲與顯存溢出。
![]()
為解決上述挑戰,來自西湖大學、浙江大學、西湖機器人等機構的研究團隊提出了一種以運動(Motion)為中心的全新雙向時空推理框架 HiF-VLA。拋棄冗余的像素級輸入,HiF-VLA 巧妙提取低維緊湊的 Motion 向量作為動態先驗,在一個創新的「聯合專家」模塊中,同步完成未來視覺運動的預測與高精度動作序列的生成。
相比傳統的時空建模范式,HiF-VLA 徹底摒棄了無用的視覺背景干擾,不僅在極長的歷史觀測窗口下依然保持了恒定、極低的推理延遲,更賦予了機器人真正「邊想邊做」的物理直覺。在 CALVIN 與 LIBERO-LONG 等長程任務評測中,其成功率顯著超越現有 SOTA 方法,為構建真正理解世界運行規律的 WAM(世界動作模型)開辟了全新路徑。
目前,該工作已被 CVPR 2026 接收,代碼已開源。
- 論文地址:HiF-VLA: Hindsight, Insight and Foresight through Motion Representation for Vision-Language-Action Models
- 論文鏈接:
- https://arxiv.org/abs/2512.09928
- 項目主頁:
- https://hifvla.github.io/
- 代碼:
- https://github.com/OpenHelix-Team/HiF-VLA
01 研究動機:
從「動作模仿」到「理解物理世界」
![]()
當前主流的 VLA(視覺-語言-動作)模型,本質上大多是高級的「動作模仿」。它們接收當前的圖像觀測,直接映射出對應的動作。
這種范式在短視距任務中尚可應付,但在執行長程任務時卻屢屢翻車。為什么?因為模型缺乏對物理世界「動態變化」的理解。它們不知道自己剛才做了什么,也無法預判當前動作會對環境產生怎樣的影響,從而極易陷入因果混淆。
要打破這種「短視」魔咒,模型必須從單純的「動作模仿」走向「物理理解」。這就要求我們引入World Action Model (WAM)的概念——智能體不僅要會「做」,還要能在腦海中「想」(推演環境的變化)。
如何賦予機器人「邊想邊做」的時空推理能力?最直觀的想法是把過去幀和未來幀的圖像全部塞進大模型里。但現實是骨感的:圖像級別的時空建模不僅會導致算力爆炸,還會引入大量的靜態背景冗余,使得關鍵的物理變化被淹沒。HiF-VLA 團隊找到了一個高效的切入點:運動(Motion)。
02 核心方案:
HiF-VLA 的「三位一體」時空推理
相比于冗余的像素,Motion 是捕捉物理世界動態演變最純粹、最高效、最本質的表征。以 Motion 為中心,HiF-VLA 構建了一個名為Hindsight-Insight-Foresight (HiF)的雙向時空推理框架。
1. Hindsight(后見之明):打破馬爾可夫假設的「記憶錨點」
智能體必須擁有連貫的自我意識。HiF-VLA 將機器人過去的歷史幀通過視頻編解碼器(H.264、MPEG-4 等)提取為低維且緊湊的 Motion 動態先驗。這就像給機器人植入了一個記憶中樞,它不需要回看過去的錄像,就能精確感知到「環境剛剛經歷了怎樣的運動變化」。這個歷史上下文,是后續一切推理的基石。
2. Insight(洞察現在)和 Foresight(先見之明):走向 WAM 的「全知視角」
真正的智能,既需要扎根當下,更需要預判未來。在 HiF-VLA 框架中,這兩個能力被完美解耦又緊密交織,共同構成了邁向 WAM(世界動作模型)的核心:
- Insight(洞察現在):負責深度解析當前的語言指令和實時視覺觀測,讓機器人感知「我此時此刻面臨的是什么環境,需要完成什么具體目標」。
- Foresight(預見未來):基于當下的 Insight,HiF-VLA 在輸出動作的同時,會初步地預測未來的運動趨勢。這相當于在模型內部嵌入了一個虛擬物理模擬器,讓機器人能夠提前推演自身的行為后果。
3. 深度對齊:視覺與動作的協同預測
這是 HiF-VLA 最為核心、也最出彩的創新——歷史調制的聯合專家(Hindsight-modulated joint expert)。如果說 Hindsight 和 Foresight 拉長了時間軸,那么聯合專家模塊則改變了模型的生成目標。HiF-VLA 認為,視覺與動作的割裂是阻礙模型理解物理規律的絆腳石,因此設計的聯合專家模塊絕不是簡單地將視覺特征和語言指令拼接,而是執行了一個雙目標協同的策略:
- 視覺 Motion 預測 + 動作序列生成:聯合專家在歷史信息(Hindsight)的動態調制下,被強制要求同時輸出對未來視覺 Motion 的預測以及高精度的執行動作序列。
- 為什么這很重要?這種雙目標的聯合對齊,逼迫模型不能只死記硬背動作,而是必須去理解「我輸出這個動作后,物理世界的視覺表征會發生怎樣的動態變換」。
通過將「預測未來視覺變化(想)」與「規劃動作序列(做)」深度綁定,HiF-VLA 實現了真正的Think-while-acting(邊想邊做)。它不再是盲目地模仿專家軌跡,而是產生了真實的「物理直覺」。
03 實驗結果
Q1:HiF-VLA 與 SOTA 的 VLA 模型相比較如何?
HiF-VLA 在多樣化的短程和長程任務中展現出了強大的能力。
![]()
![]()
團隊尤其關注 HiF-VLA 在長程任務上的表現。在 LIBERO-LONG 任務套件以及 CALVIN ABC-D 長程任務評測中,HiF-VLA 的表現顯著優于諸多 SOTA 方法。同時,在真實世界的長程任務測試中,HiF-VLA 也展現出更加穩定且優越的任務完成性能(更多詳細指標請參閱原論文)。
Q2:HiF-VLA 是否有效地緩解了傳統方法中的視覺冗余和低效問題?
![]()
? 傳統做法的困境:當簡單粗暴地將歷史多幀圖像塞給模型時,顯存瞬間爆炸。峰值 GPU 顯存直接翻倍飆升至 63.6 GB(漲幅 2.06 倍),推理延遲更是暴增到 229.5 ms(高達 3.15 倍)。更令人窒息的是,由于引入了海量冗余的靜態背景噪聲,模型反而被干擾了視線,平均成功率(Avg. SR)不升反降。
? HiF-VLA 的解決方案:HiF-VLA 巧妙地將歷史幀編碼為低維、結構化的運動向量。引入 Hindsight 模塊后,模型面對同樣長度的歷史窗口,峰值顯存僅僅維持在 31.4 GB,相較于 Baseline 幾乎做到了「零負擔」(僅增加極微小的 1.02 倍開銷)。同時,推理延遲(117.7 ms)也遠低于傳統堆疊方法。最重要的是,在剔除了視覺冗余后,它讓模型能專注理解物理運動,成功將平均成功率大幅提升。
Q3:隨著時間跨度的增加,HiF-VLA 在推理時的可擴展性如何?
![]()
拒絕指數級成本增長,打破長序列計算瓶頸。
從推理效率對比圖可以直觀看出,隨著歷史時間跨度的增加,傳統堆疊圖像幀的方法會遭遇指數級的計算延遲暴漲甚至顯存溢出(OOM)。而 HiF-VLA 憑借提取低維緊湊的 Motion 特征,徹底打破了長序列推理的計算瓶頸,隨著歷史觀測窗口變長,都始終保持穩定且極低的推理延遲,展現出了在處理長程動態變換時強大的時間可擴展性。
Q4:HiF-VLA 所謂的「邊想邊做」究竟是怎樣的過程?
![]()
眼見為實:motion 預測與 action 執行的時空高度吻合。
從可視化結果中可以看到,HiF-VLA 在執行動作的同一時刻,其內部聯合專家模塊已經精準預測出了由紅色箭頭標識的未來視覺運動場。這有力地證明了模型并非在盲目背誦指令,而是真正實現了「邊想邊做」。它能清晰地預判自身動作將引發環境中怎樣的物理動態變換,從而在復雜任務中展現出精準的「物理直覺」。
04 總結
從機械的「動作模仿」進化為理解物理規律的「世界動作模型(WAM)」,HiF-VLA 邁出了至關重要的一步。它證明了機器人的動作不應只是對指令的盲目響應,而應當是在對過去的洞察與對未來的預判交織下,自然而然的物理反饋。對于具身智能走向更復雜、更真實的物理世界,HiF-VLA 無疑提供了一個極具潛力和啟發性的全新范式。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.