網易首頁 > 網易號 > 正文申請入駐

LLM 推理的動態短板能靠世界模型能補上嗎？

2026-06-22 18:10:54　來源: 人工智能學家

北京舉報

分享至

來源：機器之心

本文來自PRO會員通訊內容，文末關注「機器之心PRO會員」，查看更多專題解讀。

過往大模型推理優化主要圍繞語言推理鏈的結構化與搜索增強展開。但在網頁交互、工具調用等動態任務中，推理對象已從靜態文本轉向隨動作變化的環境狀態，問題本質從語言生成擴展為環境中的決策。現有 CoT、ToT 等方法仍主要在文本空間內優化推理路徑，并未對環境狀態轉移進行顯式建模。世界模型的引入正是為了彌補這一缺口，通過建模動作與狀態變化的映射關系，為 LLM-based Agent 提供環境預測能力，以支撐更穩定的決策過程。

01. 從局部自動化到全供應鏈質變，AI 如何重構傳統的勞動力與資本份額？

AGI 時代的稀缺性到底會如何重塑全球經濟的底層邏輯？全供應鏈自動化為什么會讓傳統的勞動力與資本分配模型失效？ ...

02. 邁向全自動化的過渡期，人類為何終將被機器經濟排斥？

人類勞動的最后一道稀缺性防線「關系型部門」真的能守住嗎？「混亂的中間地帶」會給社會帶來哪些難以預料的政治經濟學危機？ ...

03. 邊緣經濟體如何避免被算力供應鏈淘汰？

AGI 創造的巨額財富該如何進行公平且可持續的社會再分配？為什么具有極高財富積累偏好的實體會主導未來的全球資本格局？ ...

世界模型如何幫助 Agent 解鎖動態交互能力？

1、近年來，當 LLM 落地應用在網頁操作、工具調用、代碼運行、長時序任務規劃等動態 Agent 場景時，推理不再局限于文本生成，而是延伸至行為決策領域。然而，模型在靜態基準測試中的優異表現，與其在真實動態交互環境中的推理效果之間存在明顯差距。

① 網頁導航、代碼編輯、工具使用和長周期對話等場景均屬于動態環境，其狀態隨動作持續演化，要求模型具備前瞻預測能力，且單步誤差可能沿決策鏈逐級累積。靜態環境則通常不存在狀態變化與誤差傳遞。[1]

② 靜態評估忽略推理過程中的中斷與環境變化，會系統性高估模型在動態任務中保持推理正確性與完成任務能力的表現。在數學推理與代碼生成任務中，引入中斷或上下文變化后，模型性能最高下降可達 60%。[2]

2、圍繞提升 LLM-based Agent 推理能力的目標，業界陸續提出 CoT、Self-Consistency、ToT、LATS 等優化方法，從不同角度強化模型表現。但這些方法并未觸及核心問題。但這些優化本質上仍在文本空間內改進推理路徑，并未賦予模型預判動作后果的能力，因而無法真正解決動態環境中的推理短板。

① CoT 的單向線性推理存在結構性局限，其輸出的鏈式推理文本并不能完整還原真實的內在決策過程。研究者進一步發現，CoT 及其推理變體在不同模型規模和基準復雜度下持續不如直接回答。[3][4]

② ToT 和 LATS 的改進仍局限于文本空間內的路徑優化，并未對環境轉移進行顯式建模。面對網頁提交、代碼發布、API 調用這類不可逆操作，依賴此類方法的 LLM-based Agent 在實際部署中的效果有限。[5]

3、近期，EvoAgent、WebEvolver、COMAP、RWML、ProPlay 等工作嘗試通過「世界模型」賦予模型預測狀態轉移的能力，嘗試緩解動態環境中因不可逆操作與狀態追蹤困難導致的決策失效問題。

① 世界模型與前述推理優化方法的差異在于世界模型的建模對象是環境狀態轉移本身，使 LLM-based Agent 在執行動作前即具備對后果的預判能力。[6][7][8]

② EvoAgent 提出持續世界模型，使智能體在開放世界中通過自規劃與自反思完成長時程任務，無需人工干預。在 Minecraft 和 Atari 上，該方法相較現有方法平均成功率提升 105%，無效動作減少 6 倍以上。[6]

③ WebEvolver 將協同進化的世界模型引入 Web Agent 框架，在推理階段通過前瞻模擬指導動作選擇。在 Mind2Web-Live、WebVoyager 等真實網頁環境中，該方法相較現有自進化 Agent 取得了 10% 的性能提升。[7]

④ COMAP 通過閉環交互讓文本世界模型與 Agent 策略協同進化。世界模型預測候選動作的未來狀態，Agent 據此優化動作，生成的軌跡再通過自蒸餾更新世界模型。在具身任務規劃、Web 導航和工具使用基準上，COMAP 在 Qwen3-4B 上實現了 16.75% 的相對提升。[8]

⑤ RWML 通過 sim-to-real gap 獎勵在文本狀態上學習動作條件世界模型，將模擬的下一狀態與真實觀測對齊。在 ALFWorld 和 τ2 Bench 上，RWML 結合任務成功獎勵后分別比直接使用任務成功獎勵的 RL 高出 6.9 和 5.7 個點。[9]

⑥ ProPlay 提出程序性世界模型，將成功軌跡抽象為程序并在程序圖中組織，支持 Agent 在執行前預演未來的程序路徑。實驗表明該方法在環境理解與自進化能力上持續優于強基線。[10]

4、業界圍繞世界模型的討論重點集中于，動態交互任務要求模型同時具備狀態理解、結果預測和長期規劃能力。世界模型能夠為 LLM-based Agent 補上「執行前預判后果」與「脫離真實環境進行策略學習」的能力，有希望從根本上解決動態環境中因狀態追蹤困難與動作后果不可逆導致的決策失效問題。[1]

① 在推理階段，世界模型能夠根據候選動作預測后續狀態變化，并利用預測結果對動作進行驗證和篩選。WebEvolver 在推理階段引入預測機制，在真實網頁環境中較現有自進化 Agent 取得了 10% 的性能提升。[7]

② 在訓練階段，世界模型可作為虛擬環境生成交互軌跡或模擬用戶反饋，降低訓練過程對真實環境的依賴；可進一步引入動態更新機制，使世界模型與智能體策略協同優化，以緩解環境分布變化帶來的影響。[8][9]

世界模型如何優化 AI 的環境推理能力？

1、傳統 LLM-based Agent 采用反應式架構，缺乏對環境如何結構化演化與變化的顯式建模，因而在網頁導航、代碼編輯、長周期對話等動態交互任務中表現受限。近期用世界模型改善推理能力的探索分別從訓練、推理、評估等維度切入，通過賦予模型預測動作之后環境狀態如何變化的能力，實現更優的動態任務適應能力...

閱讀最新前沿科技趨勢報告，請訪問21世紀關鍵技術研究院的“未來知識庫”

未來知識庫是 “21世紀關鍵技術研究院”建立的在線知識庫平臺，收藏的資料范圍包括人工智能、腦科學、互聯網、超級智能，數智大腦、能源、軍事、經濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。

截止到2月28日 ”未來知識庫”精選的百部前沿科技趨勢報告

（加入未來知識庫，全部資料免費閱讀和下載）

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.