轉自 機器之心
當世界模型越來越大,真正制約它走向「內部模擬器」的,未必是表征能力,而可能是動力學建模。
世界模型(World Models)的目標,是在模型內部構建一個可以進行未來推演的環境。過去幾年,這個方向在狀態表征上進展迅速:更強的編碼器、更好的潛變量表示、更成熟的序列建模方法,不斷提升模型對環境的壓縮和表達能力。
但另一塊同樣關鍵、甚至更決定「世界模型到底能不能真正用起來」的問題,卻長期沒有被同等力度地推進——動力學建模。
原因很簡單。世界模型不只是要「看懂」世界,更要能夠穩定地推演世界。它不僅要把當前觀測壓縮成內部狀態,還要回答一個更難的問題:狀態在動作作用下會如何持續演化。
這正是南京大學LAMDA 強化學習小組博士生林浩鑫連續兩篇 ICLR 工作所聚焦的核心問題。2025 年和 2026 年,他作為第一作者先后發表:
Any-step Dynamics Model Improves Future Predictions for Online and Offline Reinforcement Learning(ICLR 2025)
作者:Haoxin Lin, Yu-Yan Xu, Yihao Sun, Zhilong Zhang, Yi-Chen Li, Chengxing Jia, Junyin Ye, Jiaji Zhang, Yang Yu.
ADM-v2: Pursuing Full-Horizon Roll-out in Dynamics Models for Offline Policy Learning and Evaluation(ICLR 2026)
作者:Haoxin Lin, Siyuan Xiao, Yi-Chen Li, Zhilong Zhang, Yihao Sun, Chengxing Jia, Yang Yu.
兩篇論文沿著同一條主線持續推進:世界模型中的動力學,到底該如何建模,才能穩定支持長時域未來預測。
其中,ADM-v2 的代表性突破在于:在離線強化學習的動力學模型設定下,它首次將完整時域滾動推演(full-horizon roll-out)穩定推進到上千步規模。這意味著,世界模型正從「能做多步預測」進一步邁向「能夠完成近整回合級別全程推演」的內部模擬器。
世界模型不只要「看懂」世界,還要「推演」世界
經典論文《World Models》奠定了這一方向的基本框架。一個完整的世界模型通常包含兩個核心部分,如圖 1:
V 模型,即狀態表征:將原始觀測壓縮為緊湊、可計算的內部狀態;
M 模型,即動力學建模:在內部狀態空間中預測未來狀態如何隨動作變化。
前者解決「模型看到了什么」,后者解決「模型如何推演未來」。
![]()
圖 1:David Ha 與 Jurgen Schmidhuber《World Models》論文中的整體框架圖。
過去幾年,世界模型相關工作的很多進展都集中在狀態表征上。更強的視覺編碼器、更有效的潛變量表示、更長上下文的序列建模,都顯著提升了模型對環境信息的壓縮和表達能力。
相比之下,動力學建模雖然直接決定模型能否穩定推演未來,卻長期沒有得到同等強度的系統推進。
但從系統能力上看,動力學建模恰恰是最關鍵的一環。因為世界模型最核心的價值,不是「把環境壓縮一下」,而是允許智能體先在模型內部滾動推演 (roll-out),再決定是否與真實環境交互。
這件事直接關系到:模型型強化學習、離線強化學習、策略評估,以及更一般的具身智能規劃與決策。
一旦世界模型只能做短程預測,它更像是一個局部預測器;只有當它能夠穩定支撐長程甚至完整時域推演時,它才真正接近「內部模擬器」。
為什么動力學建模難:問題出在「自舉式預測」
傳統動力學模型大多采用單步預測:輸入當前狀態 和動作 ,預測下一狀態
這種做法在短程預測中很自然,但一旦進入長程推演,就會暴露出明顯局限。原因在于,模型在連續 roll-out 時,需要不斷把自己剛剛預測出的狀態再次作為下一步輸入。這個過程就是典型的自舉式預測(bootstrapping prediction)。
它的核心問題非常突出:
只要某一步出現偏差,后續預測就會建立在這個偏差之上;
誤差會在滾動推演中持續累積并不斷放大;
預測 horizon 越長,軌跡偏移通常越嚴重。
很多世界模型「短程有效、長程失穩」的根源,其實都在這里。也因此,過去不少模型式方法往往會主動限制 rollout 的長度,用更短的 horizon 來控制 model bias。
與之相對的思路,是直接預測(direct prediction)。
所謂直接預測,不是一步一步層層遞推,而是從一個更穩定的起始狀態出發,結合一段動作序列,跨多步直接預測未來狀態。這樣做的核心收益在于:它顯著縮短了誤差傳播鏈條,因此更適合長時域推演。
圍繞動力學建模的改進,最終都會落到幾個最根本的問題上:
長程推演時,誤差是否可控;
面對未見過的動作序列,模型能否泛化;
不確定性估計是否可靠;
模型是否真的能支撐完整回合級別的未來推演。
ADM:不再一步一步猜未來,而是「任意步直接預測」
林浩鑫在 ICLR 2025 的論文《Any-step Dynamics Model》中,正面切入了這個問題。
核心想法:未來不一定非要靠「上一步預測結果」來推出來
傳統單步動力學學習的是從到 的映射。
ADM 則提出:未來狀態不一定非要依賴上一步預測結果層層遞推得到,也可以從更早的狀態出發,結合一段動作序列,直接預測若干步后的狀態。
這里最關鍵的操作是回溯 (backtracking)。模型從不同長度的歷史視角出發,對未來狀態進行任意步直接預測,因此被命名為Any-step Dynamics Model。
這背后的變化,看起來只是「預測方式不一樣了」,但本質上是在重寫未來推演的計算路徑:
過去是單步自舉、層層遞推;
現在是跨時域直接預測、減少誤差鏈條。
誤差不再需要在每一步都傳遞一次,長程 roll-out 的穩定性也就自然提升了。
![]()
圖 2:Any-step Dynamics Model 模型結構以及不同回溯長度下的預測機制。
一個模型,也能做出類似集成的不確定性估計
ADM 的另一個亮點,在于它對不確定性估計的處理。
在很多離線強化學習方法中,最常見的辦法之一是模型集成 (ensemble):訓練多個動力學模型,再用模型之間的預測分歧來估計某個區域是否可靠。
ADM 提出了一種更有結構的思路:同一個模型在不同回溯長度下的預測差異,本身就可以作為不確定性信號。
從直覺上看:
如果模型處在訓練數據覆蓋充分的區域,那么不同回溯尺度下的預測應當相對一致;
如果模型進入數據稀疏區域或分布外區域,那么不同時間尺度上的預測分歧就會明顯變大。
換句話說,ADM 相當于把「不同時間跨度上的預測視角」組織成了一種更輕量、也更結構化的內部集成方式。
這讓它在不依賴大規模模型集成的情況下,也能獲得有用的不確定性估計。
![]()
圖 3:ADM 與模型集成在不確定性估計上的相關性對比。
![]()
圖 4:ADM、模型集成和普通 RNN 動力學模型在長程滾動推演誤差增長上的對比。
實驗結果:未來預測改善帶來策略學習提升
基于 ADM,論文進一步構建了:
ADMPO-ON:面向在線模型型強化學習;
ADMPO-OFF:面向離線模型型強化學習。
實驗結果表明,ADM 帶來的不是局部性質上的改動,而是對未來預測質量和最終策略性能的同步提升:
在在線設置中,ADMPO-ON 具備更高的樣本效率;
在離線設置中,ADMPO-OFF 在 D4RL 和 NeoRL 上優于多種強基線。
![]()
表 1:D4RL 上與 BC、CQL、MOPO、MOBILE 等方法的對比結果。
![]()
表 2:此處插入 ADM 論文 Table 2,展示 NeoRL 上的對比結果。
![]()
圖 5:ADM 與自舉式預測、模型集成自舉式預測的誤差累積曲線。
這篇工作系統地證明了,動力學建模不必局限于「單步自舉式預測」這一條路徑。世界模型中的未來預測,可以通過任意步、跨時域的直接預測方式得到重新組織。
ADM-v2:首次把完整時域滾動推演推進到上千步
如果說 ADM 回答的是「未來能不能不靠單步自舉來預測」,那么 2026 年的 ADM-v2 回答的則是更進一步的問題:
動力學模型能否真正支撐完整時域滾動推演 (full-horizon roll-out)?
這里的「完整時域」,并不是簡單地把 rollout 拉長一點,而是要盡可能覆蓋接近完整回合的推演過程,而不只是幾步、十幾步的局部展開。
這件事為什么重要?因為它對應的是世界模型能力層級上的一次躍遷。
如果模型只能做短程推演,它更像一個局部預測器;
如果模型能夠穩定支撐完整時域推演,它才更接近一個真正的內部模擬器。
ADM-v2 的關鍵突破就在于:在離線強化學習的動力學模型設定下,它首次將 full-horizon roll-out 穩定推進到上千步規模。
這不是一個普通實驗數字,而是一個能力門檻。它意味著,模型式方法開始從「短程近似預測」走向「近整回合級別的連續推演」。
結構改進:狀態負責初始化,動作負責演化
原始 ADM 在循環過程中會反復引入起始狀態,這使內部表征與起點狀態存在較強耦合。
ADM-v2 對這一結構做了更自然的重構:
先將起始狀態編碼為隱表示;
將這一隱表示作為循環單元的初始隱藏狀態;
后續遞推只輸入動作序列,不再重復輸入起始狀態。
這種設計把「狀態初始化」和「動作驅動演化」明確分開,提升了多步直接預測的靈活性和穩定性。
![]()
圖 6:ADM 與 ADM-v2 的結構差異對比。
PARoll:并行任意步滾動推演
ADM-v2 進一步提出了并行任意步滾動推演(PARoll, Parallel Any-step Roll-out)。
它的核心思想是:在長程推演過程中,同時維護多個由不同時間步幅構成的預測視角,并行地產生未來狀態預測,再利用這些預測之間的差異來估計不確定性。
這樣做帶來兩方面收益:
任意步直接預測可以更高效地執行;
不確定性估計可以自然伴隨長程 rollout 一起產生。
但更關鍵的是,PARoll 的價值不只在「更快」或者「更方便」。它真正把 ADM-v2 從「概念上能做長程預測」推進到了「實際上能夠執行上千步 full-horizon 推演」這一層。
也就是說,ADM-v2 不再只是證明「任意步預測是個好主意」,而是進一步證明:這條路線確實可以支撐近整回合級別的長程推演。
![]()
圖 7:PARoll 的并行結構和多時間線預測機制。
從「學策略」走向「評策略」
ADM-v2 的一個重要擴展,是把動力學模型進一步用于離線策略評估。
這是一個非常關鍵的落點。因為在離線強化學習以及具身智能場景中,新策略往往不能輕易回到真實環境中反復試驗,如何評估策略價值就變得非常重要。
從理想狀態出發,最直接的方式當然是:讓策略先在世界模型中完整運行若干個回合,再估計它的總回報。
但這對動力學模型提出了極高要求。只有當模型在長程滾動推演中誤差足夠可控時,這樣的評估才具有可信度。
ADM-v2 在這方面取得了明顯進展。論文在 DOPE benchmark 上的結果表明,基于 ADM-v2 的完整時域滾動推演評估優于多種離線策略評估方法,也優于其他動力學模型方案。
更重要的是,這篇工作首次驗證了動力學模型可以穩定支撐上千步的全程推演,并在這一尺度上同時服務于策略學習與策略評估。
這件事的意義在于,它讓世界模型開始擺脫「短程預測工具」的角色,進一步走向「可用于整回合模擬的內部環境」。
![]()
圖 8:DOPE benchmark 上不同離線策略評估方法的整體對比結果。
在離線策略學習任務中,ADM-v2 同樣表現突出。
論文報告,基于 ADM-v2 的ADM2PO-fh在 D4RL 和 NeoRL 上取得了新的最好結果;與此前強基線相比,平均性能提升分別超過4.6%和12.8%。
更值得注意的是,很多已有方法在 rollout 長度增加時,性能往往會明顯下降。原因很直接:一旦模型偏差在長時域上迅速累積,更長的推演反而會變成噪聲來源。
但 ADM-v2 展現出一種不同的趨勢:它能夠持續從更長時域的推演中獲益。
這恰恰說明,ADM-v2 的改進不是「把 rollout 拉長了」,而是讓更長時域的 rollout真正變得可用。
![]()
表 3:D4RL 上與 CQL、EDAC、MOPO、MOBILE、MOREC 等方法的對比。
![]()
表 4:NeoRL 上的對比結果。
![]()
圖 9:不同滾動推演長度對性能的影響。
把模型做大的同時,也要把動力學建模做對
如果把這兩篇工作放在一起看,它們可以構成一條連續推進的技術主線。
第一步,ADM 證明:動力學模型不必局限于單步自舉式預測。未來狀態可以通過任意步、跨時域的直接預測來重構,從而緩解長程誤差累積。
第二步,ADM-v2 進一步證明:在 Any-step 路線已經被驗證有效之后,通過更合理的模型結構和并行滾動推演機制,動力學模型可以真正支撐上千步級別的完整時域滾動推演。
第三步,這條路線最終指向的是:把世界模型從「局部預測工具」推進為更接近「數據驅動模擬器」的系統形態。
今天的世界模型研究,很容易把注意力集中在更大的參數規模、更長的上下文、更豐富的數據和更強的表征能力上。
這些當然重要,但如果未來預測仍然主要依賴誤差會不斷累積和放大的自舉式路徑,那么模型即使變得更大,也未必能穩定支撐長程推演、規劃和評估。
從這個意義上說,林浩鑫這兩篇工作的價值,不只是提出了兩個新方法,而是把注意力重新拉回到一個更底層的問題上:世界模型的動力學,必須被認真建模。
只有在動力學建模本身做對的前提下,模型規模的增長才更有可能轉化為真實的系統能力。尤其當目標從短程預測走向長期推演、從樣本生成走向策略評估時,動力學建模的重要性只會繼續上升。
如果說 ADM 證明了「未來預測不必依賴單步自舉去完成」,那么 ADM-v2 則進一步證明了:在離線強化學習的動力學模型語境下,世界模型已經開始具備承擔上千步整回合推演任務的能力。
對于離線強化學習、機器人學習、通用智能體,以及更大規模的世界模型系統而言,這條路線的潛力還遠沒有被完全展開。下一階段,動力學建模很可能會成為世界模型繼續向前演化時,最無法回避的關鍵問題之一。
【免責聲明】轉載出于非商業性的教育和科研目的,只為學術新聞信息的傳播,版權歸原作者所有,如有侵權請立即與我們聯系,我們將及時刪除。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.