无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

HiF-VLA:以motion為中心打造「邊想邊做」的世界動作模型

0
分享至



本文第一作者為西湖大學科研助理藺明慧,通訊作者為阿里巴巴達摩院算法專家黃思騰和西湖大學人工智能系副主任王東林。所有作者均來自西湖大學機器智能實驗室(MiLAB)和西湖機器人科技有限公司,團隊工作 ReconVLA 近期獲得 AAAI 2026 最佳論文獎。

具身智能要想真正在復雜場景中落地,離不開對長程任務(Long-horizon tasks)的穩定執行。然而,現有的 VLA(視覺-語言-動作)模型大多停留在「動作模仿」階段,缺乏對物理世界動態變換的深刻理解,在長線操作中極易陷入因果混淆;同時,傳統通過直接堆疊多幀圖像來引入時間維度的方法,不僅容易引入大量靜態背景冗余,更會帶來災難性的推理延遲與顯存溢出。



為解決上述挑戰,來自西湖大學、浙江大學、西湖機器人等機構的研究團隊提出了一種以運動(Motion)為中心的全新雙向時空推理框架 HiF-VLA。拋棄冗余的像素級輸入,HiF-VLA 巧妙提取低維緊湊的 Motion 向量作為動態先驗,在一個創新的「聯合專家」模塊中,同步完成未來視覺運動的預測與高精度動作序列的生成。

相比傳統的時空建模范式,HiF-VLA 徹底摒棄了無用的視覺背景干擾,不僅在極長的歷史觀測窗口下依然保持了恒定、極低的推理延遲,更賦予了機器人真正「邊想邊做」的物理直覺。在 CALVIN 與 LIBERO-LONG 等長程任務評測中,其成功率顯著超越現有 SOTA 方法,為構建真正理解世界運行規律的 WAM(世界動作模型)開辟了全新路徑。

目前,該工作已被 CVPR 2026 接收,代碼已開源。

  • 論文地址:HiF-VLA: Hindsight, Insight and Foresight through Motion Representation for Vision-Language-Action Models
  • 論文鏈接:
  • https://arxiv.org/abs/2512.09928
  • 項目主頁:
  • https://hifvla.github.io/
  • 代碼:
  • https://github.com/OpenHelix-Team/HiF-VLA

01 研究動機:

從「動作模仿」到「理解物理世界」



當前主流的 VLA(視覺-語言-動作)模型,本質上大多是高級的「動作模仿」。它們接收當前的圖像觀測,直接映射出對應的動作。

這種范式在短視距任務中尚可應付,但在執行長程任務時卻屢屢翻車。為什么?因為模型缺乏對物理世界「動態變化」的理解。它們不知道自己剛才做了什么,也無法預判當前動作會對環境產生怎樣的影響,從而極易陷入因果混淆。

要打破這種「短視」魔咒,模型必須從單純的「動作模仿」走向「物理理解」。這就要求我們引入World Action Model (WAM)的概念——智能體不僅要會「做」,還要能在腦海中「想」(推演環境的變化)。

如何賦予機器人「邊想邊做」的時空推理能力?最直觀的想法是把過去幀和未來幀的圖像全部塞進大模型里。但現實是骨感的:圖像級別的時空建模不僅會導致算力爆炸,還會引入大量的靜態背景冗余,使得關鍵的物理變化被淹沒。HiF-VLA 團隊找到了一個高效的切入點:運動(Motion)。

02 核心方案:

HiF-VLA 的「三位一體」時空推理


相比于冗余的像素,Motion 是捕捉物理世界動態演變最純粹、最高效、最本質的表征。以 Motion 為中心,HiF-VLA 構建了一個名為Hindsight-Insight-Foresight (HiF)的雙向時空推理框架。

1. Hindsight(后見之明):打破馬爾可夫假設的「記憶錨點」

智能體必須擁有連貫的自我意識。HiF-VLA 將機器人過去的歷史幀通過視頻編解碼器(H.264、MPEG-4 等)提取為低維且緊湊的 Motion 動態先驗。這就像給機器人植入了一個記憶中樞,它不需要回看過去的錄像,就能精確感知到「環境剛剛經歷了怎樣的運動變化」。這個歷史上下文,是后續一切推理的基石。

2. Insight(洞察現在)和 Foresight(先見之明):走向 WAM 的「全知視角」

真正的智能,既需要扎根當下,更需要預判未來。在 HiF-VLA 框架中,這兩個能力被完美解耦又緊密交織,共同構成了邁向 WAM(世界動作模型)的核心:

  • Insight(洞察現在):負責深度解析當前的語言指令和實時視覺觀測,讓機器人感知「我此時此刻面臨的是什么環境,需要完成什么具體目標」。

  • Foresight(預見未來):基于當下的 Insight,HiF-VLA 在輸出動作的同時,會初步地預測未來的運動趨勢。這相當于在模型內部嵌入了一個虛擬物理模擬器,讓機器人能夠提前推演自身的行為后果。

3. 深度對齊:視覺與動作的協同預測

這是 HiF-VLA 最為核心、也最出彩的創新——歷史調制的聯合專家(Hindsight-modulated joint expert)。如果說 Hindsight 和 Foresight 拉長了時間軸,那么聯合專家模塊則改變了模型的生成目標。HiF-VLA 認為,視覺與動作的割裂是阻礙模型理解物理規律的絆腳石,因此設計的聯合專家模塊絕不是簡單地將視覺特征和語言指令拼接,而是執行了一個雙目標協同的策略:

  • 視覺 Motion 預測 + 動作序列生成:聯合專家在歷史信息(Hindsight)的動態調制下,被強制要求同時輸出對未來視覺 Motion 的預測以及高精度的執行動作序列。

  • 為什么這很重要?這種雙目標的聯合對齊,逼迫模型不能只死記硬背動作,而是必須去理解「我輸出這個動作后,物理世界的視覺表征會發生怎樣的動態變換」。

通過將「預測未來視覺變化(想)」與「規劃動作序列(做)」深度綁定,HiF-VLA 實現了真正的Think-while-acting(邊想邊做)。它不再是盲目地模仿專家軌跡,而是產生了真實的「物理直覺」。

03 實驗結果


Q1:HiF-VLA 與 SOTA 的 VLA 模型相比較如何?

HiF-VLA 在多樣化的短程和長程任務中展現出了強大的能力。





團隊尤其關注 HiF-VLA 在長程任務上的表現。在 LIBERO-LONG 任務套件以及 CALVIN ABC-D 長程任務評測中,HiF-VLA 的表現顯著優于諸多 SOTA 方法。同時,在真實世界的長程任務測試中,HiF-VLA 也展現出更加穩定且優越的任務完成性能(更多詳細指標請參閱原論文)。

Q2:HiF-VLA 是否有效地緩解了傳統方法中的視覺冗余和低效問題?



? 傳統做法的困境:當簡單粗暴地將歷史多幀圖像塞給模型時,顯存瞬間爆炸。峰值 GPU 顯存直接翻倍飆升至 63.6 GB(漲幅 2.06 倍),推理延遲更是暴增到 229.5 ms(高達 3.15 倍)。更令人窒息的是,由于引入了海量冗余的靜態背景噪聲,模型反而被干擾了視線,平均成功率(Avg. SR)不升反降。

? HiF-VLA 的解決方案:HiF-VLA 巧妙地將歷史幀編碼為低維、結構化的運動向量。引入 Hindsight 模塊后,模型面對同樣長度的歷史窗口,峰值顯存僅僅維持在 31.4 GB,相較于 Baseline 幾乎做到了「零負擔」(僅增加極微小的 1.02 倍開銷)。同時,推理延遲(117.7 ms)也遠低于傳統堆疊方法。最重要的是,在剔除了視覺冗余后,它讓模型能專注理解物理運動,成功將平均成功率大幅提升。

Q3:隨著時間跨度的增加,HiF-VLA 在推理時的可擴展性如何?



拒絕指數級成本增長,打破長序列計算瓶頸。

從推理效率對比圖可以直觀看出,隨著歷史時間跨度的增加,傳統堆疊圖像幀的方法會遭遇指數級的計算延遲暴漲甚至顯存溢出(OOM)。而 HiF-VLA 憑借提取低維緊湊的 Motion 特征,徹底打破了長序列推理的計算瓶頸,隨著歷史觀測窗口變長,都始終保持穩定且極低的推理延遲,展現出了在處理長程動態變換時強大的時間可擴展性。

Q4:HiF-VLA 所謂的「邊想邊做」究竟是怎樣的過程?



眼見為實:motion 預測與 action 執行的時空高度吻合。

從可視化結果中可以看到,HiF-VLA 在執行動作的同一時刻,其內部聯合專家模塊已經精準預測出了由紅色箭頭標識的未來視覺運動場。這有力地證明了模型并非在盲目背誦指令,而是真正實現了「邊想邊做」。它能清晰地預判自身動作將引發環境中怎樣的物理動態變換,從而在復雜任務中展現出精準的「物理直覺」。

04 總結


從機械的「動作模仿」進化為理解物理規律的「世界動作模型(WAM)」,HiF-VLA 邁出了至關重要的一步。它證明了機器人的動作不應只是對指令的盲目響應,而應當是在對過去的洞察與對未來的預判交織下,自然而然的物理反饋。對于具身智能走向更復雜、更真實的物理世界,HiF-VLA 無疑提供了一個極具潛力和啟發性的全新范式。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
最低調普京女婿被億萬富豪當街暴打:拒絕10億賠償,只提一個要求

最低調普京女婿被億萬富豪當街暴打:拒絕10億賠償,只提一個要求

刀刃故事
2024-11-11 10:40:21
笑麻了,那些外行人看來很蠢的設計,實際上卻精妙無比!

笑麻了,那些外行人看來很蠢的設計,實際上卻精妙無比!

另子維愛讀史
2026-05-16 10:36:47
越南向世界隱瞞四十余年,對越反擊戰中,越南竟然還藏了驚人力量

越南向世界隱瞞四十余年,對越反擊戰中,越南竟然還藏了驚人力量

花顏蘊韻
2026-05-22 03:21:22
上海交大樊同學,高中保送到交大,又轉到高分專業,計劃進體制內

上海交大樊同學,高中保送到交大,又轉到高分專業,計劃進體制內

漢史趣聞
2026-05-19 14:34:42
“荔枝泡水”視頻瘋傳引擔憂!廠方與業內緊急澄清:正常操作!廣東網友現身說法

“荔枝泡水”視頻瘋傳引擔憂!廠方與業內緊急澄清:正常操作!廣東網友現身說法

新民晚報
2026-05-21 17:33:07
穆里尼奧下死令!皇馬砸 8000 萬強挖切爾西非賣品,巴薩徹底慌了

穆里尼奧下死令!皇馬砸 8000 萬強挖切爾西非賣品,巴薩徹底慌了

奶蓋熊本熊
2026-05-22 03:29:12
上海殺殺哥后續!大四重修生,長期服藥,室友崩潰發聲,內幕曝光

上海殺殺哥后續!大四重修生,長期服藥,室友崩潰發聲,內幕曝光

千言娛樂記
2026-05-21 12:21:37
交了智商稅才明白:這4種家電一定要買貴的,沒錢干脆先不買

交了智商稅才明白:這4種家電一定要買貴的,沒錢干脆先不買

裝修秀
2026-05-21 21:07:00
3年8700萬美金!聯盟第1!NBA新惡人把話挑明,文班亞馬沒有退路

3年8700萬美金!聯盟第1!NBA新惡人把話挑明,文班亞馬沒有退路

世界體育圈
2026-05-21 21:58:43
埃澤笑談水瓶哥梗圖:可能我今年的頭像都是這張圖了

埃澤笑談水瓶哥梗圖:可能我今年的頭像都是這張圖了

懂球帝
2026-05-22 06:03:07
小米YU7低價上市,雷軍認錯:取消標準版是失誤,大定量太驚人

小米YU7低價上市,雷軍認錯:取消標準版是失誤,大定量太驚人

侃故事的阿慶
2026-05-22 03:17:34
*ST聞泰科技竟然漲停了!

*ST聞泰科技竟然漲停了!

一些見聞
2026-05-22 01:44:36
馬家人永遠感念過去的幕僚,蕭旭岑回應了

馬家人永遠感念過去的幕僚,蕭旭岑回應了

新時光點滴
2026-05-22 00:52:46
與戴軍牽手散步3個月,李靜高調官宣喜訊,這下晚年依靠有著落了

與戴軍牽手散步3個月,李靜高調官宣喜訊,這下晚年依靠有著落了

喜歡歷史的阿繁
2026-05-22 06:00:27
詹姆斯:被雷霆淘汰并非不努力和技戰術,而是輸給他們的天賦

詹姆斯:被雷霆淘汰并非不努力和技戰術,而是輸給他們的天賦

懂球帝
2026-05-21 22:25:07
重返東京,發覺經濟已不再是中日關系的“壓艙石”

重返東京,發覺經濟已不再是中日關系的“壓艙石”

觀察者網
2026-05-22 07:51:06
知名網紅韓景楓官宣全家搬離北京!剛購千萬別墅,已賣掉多輛豪車

知名網紅韓景楓官宣全家搬離北京!剛購千萬別墅,已賣掉多輛豪車

裕豐娛間說
2026-05-21 08:43:39
“職業閉店人”陶某陽,騙取會員75萬余元!上海法院判了:有期徒刑五年

“職業閉店人”陶某陽,騙取會員75萬余元!上海法院判了:有期徒刑五年

環球網資訊
2026-05-22 10:22:15
特斯拉Model 3性能三連降:4.2秒變6.2秒

特斯拉Model 3性能三連降:4.2秒變6.2秒

算力游俠
2026-05-21 01:21:02
炸鍋!特斯拉監督版 FSD 正式入華!7 年等待終落地,帶你了解監督版

炸鍋!特斯拉監督版 FSD 正式入華!7 年等待終落地,帶你了解監督版

數碼八叔
2026-05-21 18:31:08
2026-05-22 11:59:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
13057文章數 142651關注度
往期回顧 全部

科技要聞

雷軍:輸給特斯拉不丟人

頭條要聞

24歲女子和跳傘教練雙雙遇難 留給家人最后一句話公開

頭條要聞

24歲女子和跳傘教練雙雙遇難 留給家人最后一句話公開

體育要聞

最糟糕裁判?他想要退役當市長

娛樂要聞

此沙、陳麗君方否認戀情傳聞

財經要聞

又一存儲芯片類產品,價格暴漲300%

汽車要聞

配1.5L動力/增加新配色 吉利帝豪向上系列將于5月24日上市

態度原創

數碼
房產
手機
旅游
公開課

數碼要聞

酷態科新品5月27日發布

房產要聞

順德澐璟樓王『澐冠』啟幕|一場高階共鳴的靜奢美學之約

手機要聞

蘋果iPhone 17 Pro將撐起整場MLS直播,靈活機位傳遞更多視角

旅游要聞

“廣西之夜”旅游推介會在重慶舉辦

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版