无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

學術前沿丨連續兩篇 ICLR,南京大學林浩鑫將世界模型動力學推演推進到上千步

0
分享至

轉自 機器之心

當世界模型越來越大,真正制約它走向「內部模擬器」的,未必是表征能力,而可能是動力學建模。

世界模型(World Models)的目標,是在模型內部構建一個可以進行未來推演的環境。過去幾年,這個方向在狀態表征上進展迅速:更強的編碼器、更好的潛變量表示、更成熟的序列建模方法,不斷提升模型對環境的壓縮和表達能力。

但另一塊同樣關鍵、甚至更決定「世界模型到底能不能真正用起來」的問題,卻長期沒有被同等力度地推進——動力學建模

原因很簡單。世界模型不只是要「看懂」世界,更要能夠穩定地推演世界。它不僅要把當前觀測壓縮成內部狀態,還要回答一個更難的問題:狀態在動作作用下會如何持續演化。

這正是南京大學LAMDA 強化學習小組博士生林浩鑫連續兩篇 ICLR 工作所聚焦的核心問題。2025 年和 2026 年,他作為第一作者先后發表:

  • Any-step Dynamics Model Improves Future Predictions for Online and Offline Reinforcement Learning(ICLR 2025)

  • 作者:Haoxin Lin, Yu-Yan Xu, Yihao Sun, Zhilong Zhang, Yi-Chen Li, Chengxing Jia, Junyin Ye, Jiaji Zhang, Yang Yu.

  • ADM-v2: Pursuing Full-Horizon Roll-out in Dynamics Models for Offline Policy Learning and Evaluation(ICLR 2026)

  • 作者:Haoxin Lin, Siyuan Xiao, Yi-Chen Li, Zhilong Zhang, Yihao Sun, Chengxing Jia, Yang Yu.

兩篇論文沿著同一條主線持續推進:世界模型中的動力學,到底該如何建模,才能穩定支持長時域未來預測。

其中,ADM-v2 的代表性突破在于:在離線強化學習的動力學模型設定下,它首次將完整時域滾動推演(full-horizon roll-out)穩定推進到上千步規模這意味著,世界模型正從「能做多步預測」進一步邁向「能夠完成近整回合級別全程推演」的內部模擬器。

世界模型不只要「看懂」世界,還要「推演」世界

經典論文《World Models》奠定了這一方向的基本框架。一個完整的世界模型通常包含兩個核心部分,如圖 1:

  1. V 模型,即狀態表征:將原始觀測壓縮為緊湊、可計算的內部狀態;

  2. M 模型,即動力學建模:在內部狀態空間中預測未來狀態如何隨動作變化。

前者解決「模型看到了什么」,后者解決「模型如何推演未來」。


圖 1:David Ha 與 Jurgen Schmidhuber《World Models》論文中的整體框架圖。

過去幾年,世界模型相關工作的很多進展都集中在狀態表征上。更強的視覺編碼器、更有效的潛變量表示、更長上下文的序列建模,都顯著提升了模型對環境信息的壓縮和表達能力。

相比之下,動力學建模雖然直接決定模型能否穩定推演未來,卻長期沒有得到同等強度的系統推進。

但從系統能力上看,動力學建模恰恰是最關鍵的一環。因為世界模型最核心的價值,不是「把環境壓縮一下」,而是允許智能體先在模型內部滾動推演 (roll-out),再決定是否與真實環境交互。

這件事直接關系到:模型型強化學習、離線強化學習、策略評估,以及更一般的具身智能規劃與決策。

一旦世界模型只能做短程預測,它更像是一個局部預測器;只有當它能夠穩定支撐長程甚至完整時域推演時,它才真正接近「內部模擬器」。

為什么動力學建模難:問題出在「自舉式預測」

傳統動力學模型大多采用單步預測:輸入當前狀態 和動作 ,預測下一狀態

這種做法在短程預測中很自然,但一旦進入長程推演,就會暴露出明顯局限。原因在于,模型在連續 roll-out 時,需要不斷把自己剛剛預測出的狀態再次作為下一步輸入。這個過程就是典型的自舉式預測(bootstrapping prediction)。

它的核心問題非常突出:

  • 只要某一步出現偏差,后續預測就會建立在這個偏差之上;

  • 誤差會在滾動推演中持續累積并不斷放大;

  • 預測 horizon 越長,軌跡偏移通常越嚴重。

很多世界模型「短程有效、長程失穩」的根源,其實都在這里。也因此,過去不少模型式方法往往會主動限制 rollout 的長度,用更短的 horizon 來控制 model bias。

與之相對的思路,是直接預測(direct prediction)。

所謂直接預測,不是一步一步層層遞推,而是從一個更穩定的起始狀態出發,結合一段動作序列,跨多步直接預測未來狀態。這樣做的核心收益在于:它顯著縮短了誤差傳播鏈條,因此更適合長時域推演。

圍繞動力學建模的改進,最終都會落到幾個最根本的問題上:

  • 長程推演時,誤差是否可控;

  • 面對未見過的動作序列,模型能否泛化;

  • 不確定性估計是否可靠;

  • 模型是否真的能支撐完整回合級別的未來推演。


ADM:不再一步一步猜未來,而是「任意步直接預測」

林浩鑫在 ICLR 2025 的論文《Any-step Dynamics Model》中,正面切入了這個問題。

核心想法:未來不一定非要靠「上一步預測結果」來推出來

傳統單步動力學學習的是從到 的映射。

ADM 則提出:未來狀態不一定非要依賴上一步預測結果層層遞推得到,也可以從更早的狀態出發,結合一段動作序列,直接預測若干步后的狀態

這里最關鍵的操作是回溯 (backtracking)。模型從不同長度的歷史視角出發,對未來狀態進行任意步直接預測,因此被命名為Any-step Dynamics Model

這背后的變化,看起來只是「預測方式不一樣了」,但本質上是在重寫未來推演的計算路徑:

  • 過去是單步自舉、層層遞推;

  • 現在是跨時域直接預測、減少誤差鏈條。

誤差不再需要在每一步都傳遞一次,長程 roll-out 的穩定性也就自然提升了。


圖 2:Any-step Dynamics Model 模型結構以及不同回溯長度下的預測機制。


一個模型,也能做出類似集成的不確定性估計

ADM 的另一個亮點,在于它對不確定性估計的處理。

在很多離線強化學習方法中,最常見的辦法之一是模型集成 (ensemble):訓練多個動力學模型,再用模型之間的預測分歧來估計某個區域是否可靠。

ADM 提出了一種更有結構的思路:同一個模型在不同回溯長度下的預測差異,本身就可以作為不確定性信號。

從直覺上看:

  • 如果模型處在訓練數據覆蓋充分的區域,那么不同回溯尺度下的預測應當相對一致;

  • 如果模型進入數據稀疏區域或分布外區域,那么不同時間尺度上的預測分歧就會明顯變大。

換句話說,ADM 相當于把「不同時間跨度上的預測視角」組織成了一種更輕量、也更結構化的內部集成方式。

這讓它在不依賴大規模模型集成的情況下,也能獲得有用的不確定性估計。


圖 3:ADM 與模型集成在不確定性估計上的相關性對比。


圖 4:ADM、模型集成和普通 RNN 動力學模型在長程滾動推演誤差增長上的對比。

實驗結果:未來預測改善帶來策略學習提升

基于 ADM,論文進一步構建了:

  • ADMPO-ON:面向在線模型型強化學習;

  • ADMPO-OFF:面向離線模型型強化學習。

實驗結果表明,ADM 帶來的不是局部性質上的改動,而是對未來預測質量和最終策略性能的同步提升:

  • 在在線設置中,ADMPO-ON 具備更高的樣本效率;

  • 在離線設置中,ADMPO-OFF 在 D4RL 和 NeoRL 上優于多種強基線。


表 1:D4RL 上與 BC、CQL、MOPO、MOBILE 等方法的對比結果。


表 2:此處插入 ADM 論文 Table 2,展示 NeoRL 上的對比結果。


圖 5:ADM 與自舉式預測、模型集成自舉式預測的誤差累積曲線。

這篇工作系統地證明了,動力學建模不必局限于「單步自舉式預測」這一條路徑。世界模型中的未來預測,可以通過任意步、跨時域的直接預測方式得到重新組織。

ADM-v2:首次把完整時域滾動推演推進到上千步

如果說 ADM 回答的是「未來能不能不靠單步自舉來預測」,那么 2026 年的 ADM-v2 回答的則是更進一步的問題:

動力學模型能否真正支撐完整時域滾動推演 (full-horizon roll-out)?

這里的「完整時域」,并不是簡單地把 rollout 拉長一點,而是要盡可能覆蓋接近完整回合的推演過程,而不只是幾步、十幾步的局部展開。

這件事為什么重要?因為它對應的是世界模型能力層級上的一次躍遷。

  • 如果模型只能做短程推演,它更像一個局部預測器;

  • 如果模型能夠穩定支撐完整時域推演,它才更接近一個真正的內部模擬器。

ADM-v2 的關鍵突破就在于:在離線強化學習的動力學模型設定下,它首次將 full-horizon roll-out 穩定推進到上千步規模。

這不是一個普通實驗數字,而是一個能力門檻。它意味著,模型式方法開始從「短程近似預測」走向「近整回合級別的連續推演」。

結構改進:狀態負責初始化,動作負責演化

原始 ADM 在循環過程中會反復引入起始狀態,這使內部表征與起點狀態存在較強耦合。

ADM-v2 對這一結構做了更自然的重構:

  • 先將起始狀態編碼為隱表示;

  • 將這一隱表示作為循環單元的初始隱藏狀態;

  • 后續遞推只輸入動作序列,不再重復輸入起始狀態。

這種設計把「狀態初始化」和「動作驅動演化」明確分開,提升了多步直接預測的靈活性和穩定性。


圖 6:ADM 與 ADM-v2 的結構差異對比。

PARoll:并行任意步滾動推演

ADM-v2 進一步提出了并行任意步滾動推演(PARoll, Parallel Any-step Roll-out)。

它的核心思想是:在長程推演過程中,同時維護多個由不同時間步幅構成的預測視角,并行地產生未來狀態預測,再利用這些預測之間的差異來估計不確定性。

這樣做帶來兩方面收益:

  • 任意步直接預測可以更高效地執行;

  • 不確定性估計可以自然伴隨長程 rollout 一起產生。

但更關鍵的是,PARoll 的價值不只在「更快」或者「更方便」。它真正把 ADM-v2 從「概念上能做長程預測」推進到了「實際上能夠執行上千步 full-horizon 推演」這一層。

也就是說,ADM-v2 不再只是證明「任意步預測是個好主意」,而是進一步證明:這條路線確實可以支撐近整回合級別的長程推演。


圖 7:PARoll 的并行結構和多時間線預測機制。

從「學策略」走向「評策略」

ADM-v2 的一個重要擴展,是把動力學模型進一步用于離線策略評估

這是一個非常關鍵的落點。因為在離線強化學習以及具身智能場景中,新策略往往不能輕易回到真實環境中反復試驗,如何評估策略價值就變得非常重要。

從理想狀態出發,最直接的方式當然是:讓策略先在世界模型中完整運行若干個回合,再估計它的總回報。

但這對動力學模型提出了極高要求。只有當模型在長程滾動推演中誤差足夠可控時,這樣的評估才具有可信度。

ADM-v2 在這方面取得了明顯進展。論文在 DOPE benchmark 上的結果表明,基于 ADM-v2 的完整時域滾動推演評估優于多種離線策略評估方法,也優于其他動力學模型方案。

更重要的是,這篇工作首次驗證了動力學模型可以穩定支撐上千步的全程推演,并在這一尺度上同時服務于策略學習與策略評估。

這件事的意義在于,它讓世界模型開始擺脫「短程預測工具」的角色,進一步走向「可用于整回合模擬的內部環境」。


圖 8:DOPE benchmark 上不同離線策略評估方法的整體對比結果。

在離線策略學習任務中,ADM-v2 同樣表現突出。

論文報告,基于 ADM-v2 的ADM2PO-fh在 D4RL 和 NeoRL 上取得了新的最好結果;與此前強基線相比,平均性能提升分別超過4.6%12.8%

更值得注意的是,很多已有方法在 rollout 長度增加時,性能往往會明顯下降。原因很直接:一旦模型偏差在長時域上迅速累積,更長的推演反而會變成噪聲來源。

但 ADM-v2 展現出一種不同的趨勢:它能夠持續從更長時域的推演中獲益。

這恰恰說明,ADM-v2 的改進不是「把 rollout 拉長了」,而是讓更長時域的 rollout真正變得可用


表 3:D4RL 上與 CQL、EDAC、MOPO、MOBILE、MOREC 等方法的對比。


表 4:NeoRL 上的對比結果。


圖 9:不同滾動推演長度對性能的影響。

把模型做大的同時,也要把動力學建模做對

如果把這兩篇工作放在一起看,它們可以構成一條連續推進的技術主線。

第一步,ADM 證明:動力學模型不必局限于單步自舉式預測。未來狀態可以通過任意步、跨時域的直接預測來重構,從而緩解長程誤差累積。

第二步,ADM-v2 進一步證明:在 Any-step 路線已經被驗證有效之后,通過更合理的模型結構和并行滾動推演機制,動力學模型可以真正支撐上千步級別的完整時域滾動推演。

第三步,這條路線最終指向的是:把世界模型從「局部預測工具」推進為更接近「數據驅動模擬器」的系統形態。

今天的世界模型研究,很容易把注意力集中在更大的參數規模、更長的上下文、更豐富的數據和更強的表征能力上。

這些當然重要,但如果未來預測仍然主要依賴誤差會不斷累積和放大的自舉式路徑,那么模型即使變得更大,也未必能穩定支撐長程推演、規劃和評估。

從這個意義上說,林浩鑫這兩篇工作的價值,不只是提出了兩個新方法,而是把注意力重新拉回到一個更底層的問題上:世界模型的動力學,必須被認真建模。

只有在動力學建模本身做對的前提下,模型規模的增長才更有可能轉化為真實的系統能力。尤其當目標從短程預測走向長期推演、從樣本生成走向策略評估時,動力學建模的重要性只會繼續上升。

如果說 ADM 證明了「未來預測不必依賴單步自舉去完成」,那么 ADM-v2 則進一步證明了:在離線強化學習的動力學模型語境下,世界模型已經開始具備承擔上千步整回合推演任務的能力。

對于離線強化學習、機器人學習、通用智能體,以及更大規模的世界模型系統而言,這條路線的潛力還遠沒有被完全展開。下一階段,動力學建模很可能會成為世界模型繼續向前演化時,最無法回避的關鍵問題之一。

【免責聲明】轉載出于非商業性的教育和科研目的,只為學術新聞信息的傳播,版權歸原作者所有,如有侵權請立即與我們聯系,我們將及時刪除。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
深蹲,被嚴重低估了!研究提示:每天堅持5分鐘,能預防6種疾病

深蹲,被嚴重低估了!研究提示:每天堅持5分鐘,能預防6種疾病

增肌減脂
2026-04-30 19:15:09
艾麗莎-萊曼社媒曬火辣比基尼照,小麥色肌膚搭配迷人曬痕

艾麗莎-萊曼社媒曬火辣比基尼照,小麥色肌膚搭配迷人曬痕

懂球帝
2026-05-14 20:46:18
晴天霹靂!穆里尼奧還沒上任就遭當頭一棒,頭號目標拒絕皇馬

晴天霹靂!穆里尼奧還沒上任就遭當頭一棒,頭號目標拒絕皇馬

瀾歸序
2026-05-14 02:17:31
下一個庫蒂尼奧!利物浦鎖定 6200 萬王牌,他可以拯救安菲爾德

下一個庫蒂尼奧!利物浦鎖定 6200 萬王牌,他可以拯救安菲爾德

瀾歸序
2026-05-15 02:04:36
CBA季后賽四強出爐,媒體預測全中無爆冷

CBA季后賽四強出爐,媒體預測全中無爆冷

阿衃體育
2026-05-15 04:03:17
紐約華埠傳出惡性案件!女子開門取外賣,送貨男子突然沖入公寓,噩夢瞬間發生

紐約華埠傳出惡性案件!女子開門取外賣,送貨男子突然沖入公寓,噩夢瞬間發生

華人生活網
2026-05-15 04:57:53
抗議開始了,臺島爆發“入黨潮”,賴清德犯下大錯,臺灣統派被捕

抗議開始了,臺島爆發“入黨潮”,賴清德犯下大錯,臺灣統派被捕

老范談史
2026-04-27 06:51:42
兩款國產新能源大型SUV將于2026年5月內上市

兩款國產新能源大型SUV將于2026年5月內上市

小龍侃車
2026-05-13 18:19:29
上海中環一段道路因車速109碼被記6分!司機哭訴防不勝防,引熱議

上海中環一段道路因車速109碼被記6分!司機哭訴防不勝防,引熱議

瓜哥的動物日記
2026-05-14 12:27:14
89年前那場災難,照片為何至今仍讓人窒息

89年前那場災難,照片為何至今仍讓人窒息

時光慢郵啊
2026-05-13 07:19:13
馬斯克:如果沒有貿易壁壘,中國車企能干掉世界上大部分車企

馬斯克:如果沒有貿易壁壘,中國車企能干掉世界上大部分車企

樂趣紀史
2026-04-20 19:28:46
國際足聯高管造訪中國足協,但醉翁之意應在 “搞定” 美加墨世界杯媒體版權

國際足聯高管造訪中國足協,但醉翁之意應在 “搞定” 美加墨世界杯媒體版權

上觀新聞
2026-05-15 04:28:07
最擔心的事發生,漢坦疫情全球擴散,美國提前研發疫苗早有準備?

最擔心的事發生,漢坦疫情全球擴散,美國提前研發疫苗早有準備?

觸摸史跡
2026-05-14 15:47:44
阿森納VAR爭議再升級:加布里埃爾拉拽球衣畫面曝光

阿森納VAR爭議再升級:加布里埃爾拉拽球衣畫面曝光

溫柔且自由
2026-05-15 01:57:29
特朗普落地前,普京親自坐鎮,發射洲際導彈替中國給美方個下馬威

特朗普落地前,普京親自坐鎮,發射洲際導彈替中國給美方個下馬威

風起見你
2026-05-15 04:50:08
歐洲曝紹伊古要政變,昔日親信悉數落馬,普京:進屋連表都不能帶

歐洲曝紹伊古要政變,昔日親信悉數落馬,普京:進屋連表都不能帶

混沌錄
2026-05-13 22:53:07
巴薩小將首秀驚艷,弗里克欽點進季前賽名單

巴薩小將首秀驚艷,弗里克欽點進季前賽名單

慢享生活集
2026-05-15 02:32:20
政變只是一個開始,伊朗要變天了,中國最擔心的事情,恐將發生

政變只是一個開始,伊朗要變天了,中國最擔心的事情,恐將發生

墨羽怪談
2026-04-14 09:39:31
5人4杰青!全是名校領導,被舉報學術造假,評論區怒火徹底壓不住

5人4杰青!全是名校領導,被舉報學術造假,評論區怒火徹底壓不住

譚談社會
2026-05-14 22:46:49
呂不韋彌留夜,趙姬攜毒到來,呂不韋說:算了,我便告知你真相

呂不韋彌留夜,趙姬攜毒到來,呂不韋說:算了,我便告知你真相

千秋文化
2026-01-29 21:20:29
2026-05-15 05:40:49
中國人工智能學會
中國人工智能學會
中國人工智能學會網易官方賬號
4036文章數 1489關注度
往期回顧 全部

科技要聞

馬斯克說會談很順利 黃仁勛點贊 庫克比耶

頭條要聞

馬斯克幼子裝扮“火”了 衣服包包都是中國造

頭條要聞

馬斯克幼子裝扮“火”了 衣服包包都是中國造

體育要聞

爭議抽象天王山,和季后賽最穩定中鋒

娛樂要聞

何九華官宣當爸!全程不提孩子媽

財經要聞

李強會見美國工商界代表

汽車要聞

雙零重力座椅/AI智能體/調光天幕 啟境GT7內飾發布

態度原創

教育
健康
時尚
旅游
本地

教育要聞

山東中小學 2026 暑假放假時間匯總

專家揭秘干細胞回輸的安全風險

白色上衣+彩色下裝:今年夏天最火搭配,時髦又減齡!

旅游要聞

開屏時光機|四百年西山行:徐霞客的登臨之路與“六萬人同耍西山”

本地新聞

用蘇繡的方式,打開江西婺源

無障礙瀏覽 進入關懷版