无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

HiF-VLA:以motion為中心打造「邊想邊做」的世界動作模型

0
分享至



本文第一作者為西湖大學科研助理藺明慧,通訊作者為阿里巴巴達摩院算法專家黃思騰和西湖大學人工智能系副主任王東林。所有作者均來自西湖大學機器智能實驗室(MiLAB)和西湖機器人科技有限公司,團隊工作 ReconVLA 近期獲得 AAAI 2026 最佳論文獎。

具身智能要想真正在復雜場景中落地,離不開對長程任務(Long-horizon tasks)的穩定執行。然而,現有的 VLA(視覺-語言-動作)模型大多停留在「動作模仿」階段,缺乏對物理世界動態變換的深刻理解,在長線操作中極易陷入因果混淆;同時,傳統通過直接堆疊多幀圖像來引入時間維度的方法,不僅容易引入大量靜態背景冗余,更會帶來災難性的推理延遲與顯存溢出。



為解決上述挑戰,來自西湖大學、浙江大學、西湖機器人等機構的研究團隊提出了一種以運動(Motion)為中心的全新雙向時空推理框架 HiF-VLA。拋棄冗余的像素級輸入,HiF-VLA 巧妙提取低維緊湊的 Motion 向量作為動態先驗,在一個創新的「聯合專家」模塊中,同步完成未來視覺運動的預測與高精度動作序列的生成。

相比傳統的時空建模范式,HiF-VLA 徹底摒棄了無用的視覺背景干擾,不僅在極長的歷史觀測窗口下依然保持了恒定、極低的推理延遲,更賦予了機器人真正「邊想邊做」的物理直覺。在 CALVIN 與 LIBERO-LONG 等長程任務評測中,其成功率顯著超越現有 SOTA 方法,為構建真正理解世界運行規律的 WAM(世界動作模型)開辟了全新路徑。

目前,該工作已被 CVPR 2026 接收,代碼已開源。

  • 論文地址:HiF-VLA: Hindsight, Insight and Foresight through Motion Representation for Vision-Language-Action Models
  • 論文鏈接:
  • https://arxiv.org/abs/2512.09928
  • 項目主頁:
  • https://hifvla.github.io/
  • 代碼:
  • https://github.com/OpenHelix-Team/HiF-VLA

01 研究動機:

從「動作模仿」到「理解物理世界」



當前主流的 VLA(視覺-語言-動作)模型,本質上大多是高級的「動作模仿」。它們接收當前的圖像觀測,直接映射出對應的動作。

這種范式在短視距任務中尚可應付,但在執行長程任務時卻屢屢翻車。為什么?因為模型缺乏對物理世界「動態變化」的理解。它們不知道自己剛才做了什么,也無法預判當前動作會對環境產生怎樣的影響,從而極易陷入因果混淆。

要打破這種「短視」魔咒,模型必須從單純的「動作模仿」走向「物理理解」。這就要求我們引入World Action Model (WAM)的概念——智能體不僅要會「做」,還要能在腦海中「想」(推演環境的變化)。

如何賦予機器人「邊想邊做」的時空推理能力?最直觀的想法是把過去幀和未來幀的圖像全部塞進大模型里。但現實是骨感的:圖像級別的時空建模不僅會導致算力爆炸,還會引入大量的靜態背景冗余,使得關鍵的物理變化被淹沒。HiF-VLA 團隊找到了一個高效的切入點:運動(Motion)。

02 核心方案:

HiF-VLA 的「三位一體」時空推理


相比于冗余的像素,Motion 是捕捉物理世界動態演變最純粹、最高效、最本質的表征。以 Motion 為中心,HiF-VLA 構建了一個名為Hindsight-Insight-Foresight (HiF)的雙向時空推理框架。

1. Hindsight(后見之明):打破馬爾可夫假設的「記憶錨點」

智能體必須擁有連貫的自我意識。HiF-VLA 將機器人過去的歷史幀通過視頻編解碼器(H.264、MPEG-4 等)提取為低維且緊湊的 Motion 動態先驗。這就像給機器人植入了一個記憶中樞,它不需要回看過去的錄像,就能精確感知到「環境剛剛經歷了怎樣的運動變化」。這個歷史上下文,是后續一切推理的基石。

2. Insight(洞察現在)和 Foresight(先見之明):走向 WAM 的「全知視角」

真正的智能,既需要扎根當下,更需要預判未來。在 HiF-VLA 框架中,這兩個能力被完美解耦又緊密交織,共同構成了邁向 WAM(世界動作模型)的核心:

  • Insight(洞察現在):負責深度解析當前的語言指令和實時視覺觀測,讓機器人感知「我此時此刻面臨的是什么環境,需要完成什么具體目標」。

  • Foresight(預見未來):基于當下的 Insight,HiF-VLA 在輸出動作的同時,會初步地預測未來的運動趨勢。這相當于在模型內部嵌入了一個虛擬物理模擬器,讓機器人能夠提前推演自身的行為后果。

3. 深度對齊:視覺與動作的協同預測

這是 HiF-VLA 最為核心、也最出彩的創新——歷史調制的聯合專家(Hindsight-modulated joint expert)。如果說 Hindsight 和 Foresight 拉長了時間軸,那么聯合專家模塊則改變了模型的生成目標。HiF-VLA 認為,視覺與動作的割裂是阻礙模型理解物理規律的絆腳石,因此設計的聯合專家模塊絕不是簡單地將視覺特征和語言指令拼接,而是執行了一個雙目標協同的策略:

  • 視覺 Motion 預測 + 動作序列生成:聯合專家在歷史信息(Hindsight)的動態調制下,被強制要求同時輸出對未來視覺 Motion 的預測以及高精度的執行動作序列。

  • 為什么這很重要?這種雙目標的聯合對齊,逼迫模型不能只死記硬背動作,而是必須去理解「我輸出這個動作后,物理世界的視覺表征會發生怎樣的動態變換」。

通過將「預測未來視覺變化(想)」與「規劃動作序列(做)」深度綁定,HiF-VLA 實現了真正的Think-while-acting(邊想邊做)。它不再是盲目地模仿專家軌跡,而是產生了真實的「物理直覺」。

03 實驗結果


Q1:HiF-VLA 與 SOTA 的 VLA 模型相比較如何?

HiF-VLA 在多樣化的短程和長程任務中展現出了強大的能力。





團隊尤其關注 HiF-VLA 在長程任務上的表現。在 LIBERO-LONG 任務套件以及 CALVIN ABC-D 長程任務評測中,HiF-VLA 的表現顯著優于諸多 SOTA 方法。同時,在真實世界的長程任務測試中,HiF-VLA 也展現出更加穩定且優越的任務完成性能(更多詳細指標請參閱原論文)。

Q2:HiF-VLA 是否有效地緩解了傳統方法中的視覺冗余和低效問題?



? 傳統做法的困境:當簡單粗暴地將歷史多幀圖像塞給模型時,顯存瞬間爆炸。峰值 GPU 顯存直接翻倍飆升至 63.6 GB(漲幅 2.06 倍),推理延遲更是暴增到 229.5 ms(高達 3.15 倍)。更令人窒息的是,由于引入了海量冗余的靜態背景噪聲,模型反而被干擾了視線,平均成功率(Avg. SR)不升反降。

? HiF-VLA 的解決方案:HiF-VLA 巧妙地將歷史幀編碼為低維、結構化的運動向量。引入 Hindsight 模塊后,模型面對同樣長度的歷史窗口,峰值顯存僅僅維持在 31.4 GB,相較于 Baseline 幾乎做到了「零負擔」(僅增加極微小的 1.02 倍開銷)。同時,推理延遲(117.7 ms)也遠低于傳統堆疊方法。最重要的是,在剔除了視覺冗余后,它讓模型能專注理解物理運動,成功將平均成功率大幅提升。

Q3:隨著時間跨度的增加,HiF-VLA 在推理時的可擴展性如何?



拒絕指數級成本增長,打破長序列計算瓶頸。

從推理效率對比圖可以直觀看出,隨著歷史時間跨度的增加,傳統堆疊圖像幀的方法會遭遇指數級的計算延遲暴漲甚至顯存溢出(OOM)。而 HiF-VLA 憑借提取低維緊湊的 Motion 特征,徹底打破了長序列推理的計算瓶頸,隨著歷史觀測窗口變長,都始終保持穩定且極低的推理延遲,展現出了在處理長程動態變換時強大的時間可擴展性。

Q4:HiF-VLA 所謂的「邊想邊做」究竟是怎樣的過程?



眼見為實:motion 預測與 action 執行的時空高度吻合。

從可視化結果中可以看到,HiF-VLA 在執行動作的同一時刻,其內部聯合專家模塊已經精準預測出了由紅色箭頭標識的未來視覺運動場。這有力地證明了模型并非在盲目背誦指令,而是真正實現了「邊想邊做」。它能清晰地預判自身動作將引發環境中怎樣的物理動態變換,從而在復雜任務中展現出精準的「物理直覺」。

04 總結


從機械的「動作模仿」進化為理解物理規律的「世界動作模型(WAM)」,HiF-VLA 邁出了至關重要的一步。它證明了機器人的動作不應只是對指令的盲目響應,而應當是在對過去的洞察與對未來的預判交織下,自然而然的物理反饋。對于具身智能走向更復雜、更真實的物理世界,HiF-VLA 無疑提供了一個極具潛力和啟發性的全新范式。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
古巴8個鮮為人知的事實:曾迫使數萬華人流亡,從富裕國家滑落至極度困難

古巴8個鮮為人知的事實:曾迫使數萬華人流亡,從富裕國家滑落至極度困難

三言四拍
2026-05-30 13:05:06
扎哈羅娃:俄將對羅馬尼亞迅速采取報復措施

扎哈羅娃:俄將對羅馬尼亞迅速采取報復措施

參考消息
2026-05-30 11:58:56
三花智控高管“為孩子教育”減持套現,兩千億巨頭陷熱門概念敘事與資本套現割裂

三花智控高管“為孩子教育”減持套現,兩千億巨頭陷熱門概念敘事與資本套現割裂

每日經濟新聞
2026-05-30 14:41:08
“結婚22年后發現兩兒子均非親生”當事人發聲:我對他們恨之入骨!

“結婚22年后發現兩兒子均非親生”當事人發聲:我對他們恨之入骨!

新民周刊
2026-05-30 17:32:14
兩名9歲女孩被困電梯近2小時!求救幾十次后,保安回應:不要再按電梯玩了

兩名9歲女孩被困電梯近2小時!求救幾十次后,保安回應:不要再按電梯玩了

上觀新聞
2026-05-30 19:34:29
俄烏戰爭,如果俄羅斯最終贏了,你我在有生之年很可能會親歷戰爭

俄烏戰爭,如果俄羅斯最終贏了,你我在有生之年很可能會親歷戰爭

混沌錄
2026-05-29 23:26:12
重磅:烏克蘭擊毀俄羅斯兩架圖142!打掉伊斯坎德爾系統

重磅:烏克蘭擊毀俄羅斯兩架圖142!打掉伊斯坎德爾系統

項鵬飛
2026-05-30 16:28:01
西決搶七大戰裁判出爐:戴維斯擔任主裁 三人執哨兩隊勝率曝光

西決搶七大戰裁判出爐:戴維斯擔任主裁 三人執哨兩隊勝率曝光

羅說NBA
2026-05-30 21:26:04
央視曝光!涉事品牌:全部下架!天熱很多人愛喝

央視曝光!涉事品牌:全部下架!天熱很多人愛喝

蓬勃新聞
2026-05-29 14:53:17
打虎!王益華被查

打虎!王益華被查

新京報
2026-05-30 20:29:17
41歲夫妻因“房事頻繁”雙雙入院,醫生提醒:每周不應超過一個數

41歲夫妻因“房事頻繁”雙雙入院,醫生提醒:每周不應超過一個數

醫學原創故事會
2026-05-29 23:34:07
伊朗濃縮鈾材料將被挖出銷毀,特朗普就伊朗戰事最新表態

伊朗濃縮鈾材料將被挖出銷毀,特朗普就伊朗戰事最新表態

上游新聞
2026-05-29 23:35:03
D1804次列車受電弓遭異物擊打,被困隧道內超2小時,乘客稱全車停電悶熱異常,身上像從水里撈出來的,備用列車已到現場并開始轉運

D1804次列車受電弓遭異物擊打,被困隧道內超2小時,乘客稱全車停電悶熱異常,身上像從水里撈出來的,備用列車已到現場并開始轉運

臺州交通廣播
2026-05-30 13:47:54
耿同學再下一城!南開免去陳某院長職務,14張圖表確認學術不端

耿同學再下一城!南開免去陳某院長職務,14張圖表確認學術不端

聽心堂
2026-05-30 20:24:06
中方代表:日本沒有資格談國際防務合作 須警惕軍國主義思潮借機復活

中方代表:日本沒有資格談國際防務合作 須警惕軍國主義思潮借機復活

環球網資訊
2026-05-30 19:36:11
禁投美股,難得全球大國中惟一正確

禁投美股,難得全球大國中惟一正確

家傳編輯部
2026-05-30 12:24:47
海南一三甲醫院空調外機安在室內走廊,患者吐槽“看病比室外還熱”,院方回應

海南一三甲醫院空調外機安在室內走廊,患者吐槽“看病比室外還熱”,院方回應

上游新聞
2026-05-30 16:05:05
中建八局資質被正式撤銷,給全行業敲響警鐘,考公需要注意了。

中建八局資質被正式撤銷,給全行業敲響警鐘,考公需要注意了。

解說阿洎
2026-05-29 12:34:21
最新!債務突破100萬億!

最新!債務突破100萬億!

葉初七
2026-05-30 10:28:14
網紅狗被偷后續:男子被帶走,老婆還在哺乳期,收狗人曝更多內情

網紅狗被偷后續:男子被帶走,老婆還在哺乳期,收狗人曝更多內情

閱微札記
2026-05-30 11:47:19
2026-05-31 00:19:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
13116文章數 142655關注度
往期回顧 全部

科技要聞

車圈大佬發聲:價格戰遠去,但競爭仍殘酷

頭條要聞

兩名9歲女孩被困電梯近2小時 求救幾十次物業無動于衷

頭條要聞

兩名9歲女孩被困電梯近2小時 求救幾十次物業無動于衷

體育要聞

歲月不饒人!39歲德約鏖戰近5小時拼到嘔吐

娛樂要聞

張碧晨《歌手》 “活人微死” 自嘲

財經要聞

雙匯管不住一頭豬

汽車要聞

900V+3.2秒破百 領克10+&領克10上市16.99萬元起

態度原創

游戲
藝術
手機
教育
親子

索尼PS第一方大作更新上線!超分來了 體驗大加強

藝術要聞

339米!珠海第一高樓,形似“蛟龍出海”

手機要聞

REDMI K90至尊版入網?K90單品激活破200萬

教育要聞

別再丟分了!中考物理焦耳定律實驗,一道題搞定4 個高頻易錯點

親子要聞

今天我們吃公主糖果玩公主裝扮游戲

無障礙瀏覽 進入關懷版