西湖大學王東林團隊論文：機器人需要“通古今，知未來”丨CVPR 2026

2026-03-23 09:06:43　來源: AI科技評論

廣東舉報

分享至

HiF-VLA：一種利用運動信息建模時間，讓機器人實現(xiàn)連續(xù)決策的視覺-語言-動作模型。

作者丨鄭佳美

編輯丨岑峰

試想一下，當機器人伸手去拿桌上的杯子，剛把杯子抬起來，又停住了，隨后把它放回原位，然后再次伸手去拿。同一個動作，它重復了一遍，像是忘記了自己剛剛已經(jīng)做過什么。類似的情況在真實環(huán)境中并不少見：按鈕明明已經(jīng)按下，卻還在反復按，明明抽屜已經(jīng)關好，卻還在繼續(xù)推。

這些失敗并不是因為它“看不清”，而是因為它缺乏一套能夠模擬時空演化的 “ 世界模型 ” 。當前的視覺語言行動模型雖然能夠理解圖像與指令，但在連續(xù)任務中仍然只能依賴當前觀測做決策，一旦任務變成長步驟流程，例如拿起物體、移動、放置再到關閉裝置，就容易出現(xiàn)動作重復和決策中斷的問題，其根本原因在于缺乏對時間的理解能力。

這一問題正在成為具身智能發(fā)展的關鍵瓶頸。現(xiàn)有方法大多基于“看到什么就做什么”的即時反應機制，在短任務中表現(xiàn)良好，但在長序列任務中容易出現(xiàn)動作不連貫和決策漂移。如何讓模型不僅能感知當前狀態(tài)，還能記住過去并預判未來，成為新的核心挑戰(zhàn)。

在這樣的背景下，西湖大學王東林團隊提出了論文《HiF-VLA：Hindsight, Insight and Foresight for Vision-Language-Action Models》。研究中，HiF-VLA 不再簡單依賴歷史圖像或未來畫面預測，而是以“運動”作為時間信息的核心表達，使模型能夠同時建模過去的變化、當前狀態(tài)以及未來趨勢，從而實現(xiàn)更穩(wěn)定的連續(xù)決策。

這項研究的意義，不僅在于性能上的提升，更在于提出了一種新的范式，即讓機器人從“被動反應”走向“邊思考邊行動”。在具身智能逐步走向真實世界的過程中，這種對時間的理解能力，正在成為決定系統(tǒng)是否真正可用的關鍵因素。

論文地址：https://arxiv.org/pdf/2512.09928

機器人不再「忘動作」

在長序列任務 LIBERO-Long 上，這項研究主要測試機器人是否能夠連續(xù)完成多個動作，例如拿取物體、放置以及關閉裝置等。研究結果表明，HiF-VLA 在單視角條件下的成功率達到 94.4%，在多視角條件下達到 96.4%。

作為對比，當前較強的方法 OpenVLA-OFT 在單視角下為 91.0%，多視角為 94.0%。由此可以看出，這個方法在單視角下提升了 3.4 個百分點，在多視角下提升了 2.4 個百分點。

進一步來看，在 10 個具體任務中，有多個任務的成功率達到 100%，而最低的任務也達到了 76%，說明整體性能穩(wěn)定，并非依賴個別任務拉高平均水平。一個重要現(xiàn)象是，這個方法在單視角條件下的表現(xiàn)已經(jīng)接近甚至達到其他方法在多視角條件下的水平，這意味著其性能提升主要來源于時間建模能力，而不是依賴更多視覺信息或攝像頭數(shù)量。

在 CALVIN 跨環(huán)境泛化任務中，研究在 A、B、C 三個環(huán)境中訓練模型，并在未見過的 D 環(huán)境中進行測試。評價指標是連續(xù)成功完成任務的數(shù)量，也就是在不中斷的情況下能夠連續(xù)完成多少個步驟。結果顯示，這個方法在單視角下達到 4.08，在多視角下達到 4.35，而 OpenVLA-OFT 約為 4.10，Seer 約為 4.28，RoboVLMs 約為 4.25。

可以看到，這個方法在多視角條件下取得了最高的 4.35，相比基線提升約 0.25 個任務。這個提升具有重要意義，因為這個指標一旦中間某一步失敗后續(xù)任務將不再計入，因此數(shù)值越高說明模型在長時間連續(xù)決策中的穩(wěn)定性越強，也體現(xiàn)了更好的長期規(guī)劃能力。

在效率與計算成本方面，研究進一步分析了性能提升是否以計算開銷為代價。結果顯示，當引入基于圖像的未來子目標預測時，成功率為 91.8%，但延遲增加到 115.9 毫秒，比基線慢 1.59 倍。當采用歷史幀堆疊時，成功率反而下降到 90.4%，延遲上升到 229.5 毫秒，是基線的 3.15 倍，說明大量圖像信息不僅帶來高計算成本，還會干擾模型判斷。

相比之下，這個方法在只加入未來推理時，成功率為 92.2%，延遲為 82.7 毫秒，幾乎沒有額外開銷；只加入歷史信息時，成功率同樣為 92.2%，延遲為 117.7 毫秒；同時加入兩者后，成功率達到 93.2%，延遲為 121.6 毫秒。整體來看，這個方法在提升成功率的同時，計算成本遠低于堆疊歷史幀的方法，說明使用運動信息比直接使用圖像歷史更加高效。

在時序長度擴展能力方面，研究逐步增加歷史長度，從 4 到 8，再到 16 和 32。結果表明，當長度為 8 時性能最佳，單視角為 94.4%，多視角為 96.4%，繼續(xù)增加長度反而會導致性能下降，其原因在于信息過多帶來的冗余干擾。在延遲方面，傳統(tǒng)方法的計算成本會隨著歷史長度線性增長，當長度為 8 時延遲增加約 4.5 倍，而這個方法的延遲基本保持穩(wěn)定，僅有輕微增長，說明其在時間維度上具有更好的擴展性。

在真實機器人實驗中，研究設置了多個長序列任務來驗證實際效果。在按順序按按鈕任務中，基線方法的成功率為 17.4%，而這個方法提升到 34.2%，接近翻倍。在覆蓋與堆疊任務中，基線為 33.3%，這個方法達到 57.9%，提升了 24.6 個百分點。

在放置任務中，基線約為 62.5%，這個方法約為 65%，提升較小但表現(xiàn)更加穩(wěn)定。研究人員分析認為，基線方法難以判斷按鈕是否已經(jīng)被按下，因為狀態(tài)變化較為細微，而這個方法能夠利用時間變化信息來識別狀態(tài)轉(zhuǎn)變，因此在復雜任務中表現(xiàn)更好。這進一步說明，引入時間信息能夠顯著提升機器人在長序列任務中的決策能力。

時間建模方法的系統(tǒng)性對比

在實驗過程中，研究首先在數(shù)據(jù)與任務設計上進行了系統(tǒng)安排。在模擬環(huán)境中，采用了 LIBERO 數(shù)據(jù)集中的 10 個長序列任務，以及 CALVIN 數(shù)據(jù)集中的跨環(huán)境泛化任務。在真實機器人實驗中，每個任務收集了 100 條示范數(shù)據(jù)，并在測試階段對每個任務執(zhí)行 20 次，以評估模型的穩(wěn)定性和泛化能力。

在輸入信息設計方面，模型同時接收三類信息，包括當前畫面作為對當前狀態(tài)的感知信息，歷史運動作為對過去動態(tài)變化的表達，以及語言指令用于提供任務目標，從而使模型能夠在時間維度和語義層面進行聯(lián)合決策。

在對比實驗設計中，研究團隊設置了多種不同方法進行系統(tǒng)比較。第一種方法僅使用當前觀測信息進行決策，不包含任何時間信息。第二種方法通過堆疊歷史圖像來引入時間信息，但這種方式存在信息冗余嚴重以及計算成本較高的問題。第三種方法通過預測未來圖像作為子目標來引導決策，但這種方式容易產(chǎn)生誤差，并且穩(wěn)定性較差。相比之下，所提出的方法采用運動信息替代圖像來表示時間變化，從而減少冗余信息并提高建模效率。

在消融實驗中，研究進一步分析了不同設計選擇對性能的影響。首先在歷史長度方面進行實驗，結果表明最優(yōu)長度為 8，當長度過短時無法提供足夠的信息，而長度過長則會引入冗余并影響模型判斷。

其次在歷史信息的使用方式上，研究比較了兩種策略，一種是將歷史信息直接輸入視覺語言模型，此時成功率為 92.8%，另一種是將歷史信息注入到?jīng)Q策模塊中，此時成功率提升到 94.4%。這一結果說明，將歷史信息直接加入視覺語言模型會影響其原有的視覺與語言理解過程，而在決策階段引入歷史信息能夠更有效地發(fā)揮其作用。

從「看到就做」到「邊想邊做」

這項研究首先解決了一個核心問題，即傳統(tǒng)模型在決策過程中往往只依賴當前觀測而忽略時間信息，從而導致動作不連貫以及在長序列任務中容易失敗。研究人員指出，問題的根本不在于視覺能力不足，而在于缺乏對時間的建模能力。

基于這一認識，研究提出了一個重要發(fā)現(xiàn)，即運動信息比圖像更適合用于表示時間變化，這是因為圖像中包含大量靜態(tài)信息，而運動信息只保留了真正發(fā)生變化的部分，因此更加高效且更具表達力。

這一發(fā)現(xiàn)對機器人研究帶來了直接影響，使原本從感知到動作的單向過程轉(zhuǎn)變?yōu)橥瑫r考慮過去、現(xiàn)在與未來的決策過程，即從簡單的感知到動作轉(zhuǎn)變?yōu)榛谶^去、當前狀態(tài)以及未來預測共同驅(qū)動的行動決策。

在工程價值方面，實驗結果表明這個方法不僅在性能上取得了顯著提升，例如成功率最高達到 96.4%，同時在計算效率上也具有優(yōu)勢，避免了傳統(tǒng)方法中可能出現(xiàn)的三倍計算開銷問題。

此外，這個方法在不同環(huán)境下表現(xiàn)出更強的泛化能力，并且在真實機器人實驗中同樣有效，說明其具有較強的實際應用潛力。

進一步來看，這項研究還推動了一種新的智能范式，從“看到就做”的視覺語言行動模型到“邊想邊做”的世界行動模型， HiF-VLA 改變的不僅是模型的結構設計，更是在重新定義機器人應當具備的能力邊界。

過去的系統(tǒng)更像是被動反應的執(zhí)行者，只對當前輸入做出即時回應；而在這種新的范式下，機器人開始具備連續(xù)決策的能力，能夠在行動中記住剛剛發(fā)生了什么，判斷當前處于什么階段，并預判接下來應該做什么。

這種變化的意義在于，機器人不再只是完成單步動作，而是能夠理解一整段過程，并在過程中不斷調(diào)整自己的行為。這也意味著，具身智能的發(fā)展正在從“感知驅(qū)動的反應系統(tǒng)”，走向“時間驅(qū)動的推理系統(tǒng)”。

當模型真正具備這種能力時，機器人才能在復雜、動態(tài)的真實環(huán)境中穩(wěn)定工作，而不僅僅是在受控場景中完成預設任務。

HiF-VLA 背后的科研力量

論文的通訊作者王東林，現(xiàn)任西湖大學人工智能系副主任，是機器智能實驗室（MiLAB）的創(chuàng)始人和負責人，同時也是西湖機器人科技（杭州）有限公司的創(chuàng)始人。

他本科和碩士畢業(yè)于西安交通大學電子信息工程專業(yè)，隨后在加拿大卡爾加里大學獲得電子與計算機工程博士學位，并在加拿大從事博士后研究工作。

之后他在美國紐約理工學院任教并晉升為副教授，2017 年回國加入西湖大學，成為工學院首批全職教師之一，并創(chuàng)建了機器智能實驗室。同時，他還擔任國家科技創(chuàng)新 2030 重大項目首席科學家，并入選國家人社部高層次人才計劃，在國家級科研項目中承擔重要角色。

在研究方向上，他長期致力于機器人學習與智能決策領域，重點關注強化學習、元學習以及機器人行為智能，目標是讓機器人具備自主學習、快速適應新環(huán)境并完成復雜任務的能力。其研究不僅關注感知層面的理解，更強調(diào)從感知到?jīng)Q策再到行動的完整閉環(huán)，尤其是在長序列任務和真實環(huán)境中的穩(wěn)定執(zhí)行能力。

在學術成果方面，他已發(fā)表一百余篇論文，活躍于機器人學習和強化學習等前沿領域，并參與國際學術社區(qū)建設。他的團隊是國內(nèi)最早專注于機器人學習的團隊之一，提出國際第一個四足機器人VLA大模型、人形機器人VLA大模型、獎勵無關人類反饋強化學習。他近期合作的AAAI 2026 論文斬獲最佳論文獎，同時帶領研發(fā)的通用行為專家大模型 GAE 也達到人形機器人運動的國際領先水準。

參考地址：https://milab.westlake.edu.cn/

另一位通訊作者黃思騰，現(xiàn)任阿里巴巴達摩院算法專家，博士畢業(yè)于浙江大學與西湖大學聯(lián)合培養(yǎng)項目，在機器智能實驗室完成博士研究，并由王東林教授指導。

在此之前，他于武漢大學計算機科學專業(yè)獲得本科學位。在博士期間，他還在阿里巴巴通義實驗室與達摩院進行長期研究實習，隨后進入達摩院從事算法研究工作，整體經(jīng)歷貫穿學術研究與工業(yè)界實踐。

在研究方向上，他主要聚焦于具身智能、多模態(tài)大模型以及高效人工智能，核心關注如何讓模型同時理解圖像、視頻、語言以及物理世界中的動態(tài)信息，并在真實環(huán)境中進行感知、推理與生成。他的研究不僅涉及多模態(tài)理解與生成，還強調(diào)模型在數(shù)據(jù)、計算和存儲等方面的效率優(yōu)化，致力于構建能夠在現(xiàn)實世界中高效運行的統(tǒng)一智能系統(tǒng)。

在學術成果方面，他已在相關領域發(fā)表三十余篇論文，涵蓋計算機視覺、多模態(tài)學習與機器人方向，并活躍于頂級國際會議和期刊。同時，他參與多個具身智能與多模態(tài)模型方向的研究工作，包括視覺語言行動模型及統(tǒng)一世界模型等，代表性工作涉及 HiF-VLA、RynnVLA 系列以及 WorldVLA 等框架，推動了機器人在長序列任務與真實環(huán)境中的能力提升。

參考地址：https://kyonhuang.top/

未經(jīng)「AI科技評論」授權，嚴禁以任何方式在網(wǎng)頁、論壇、社區(qū)進行轉(zhuǎn)載！

公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權，轉(zhuǎn)載時需標注來源并插入本公眾號名片。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.