網易首頁 > 網易號 > 正文申請入駐

智能體化世界建模：《基礎、能力、規律及展望》

2026-05-08 15:55:45　來源: 人工智能學家

北京舉報

分享至

“21世紀關鍵技術”關注科技未來發展趨勢，研究21世紀前沿科技關鍵技術的需求，和影響。將不定期推薦和發布世界范圍重要關鍵技術研究進展和未來趨勢研究。

來源：21世紀關鍵技術

AI系統的核心挑戰，從來不是生成一段流暢的文字，而是真正理解它所處的世界。當一個AI智能體需要操縱機械臂抓取物體、在網頁上完成復雜任務、與數百個其他智能體協同決策，或者獨立推進一項科學實驗時，它所依賴的核心能力，是對環境動態的預測與建模——而非語言本身。這一認知，正驅動著AI研究的重心從語言模型向"世界模型"（world model）加速遷移。

2026年4月，一篇由來自香港科技大學、新加坡國立大學、牛津大學、南洋理工大學、香港中文大學等十所頂尖研究機構的逾四十位研究者聯合完成的綜述論文正式掛出預印本。這篇題為《智能體化世界建模：基礎、能力、規律及展望》（Agentic World Modeling: Foundations, Capabilities, Laws, and Beyond）的報告，以綜合超過400篇文獻、覆蓋100余個代表性系統的系統性分析，為世界模型這一正處于快速演化中的研究領域提供了迄今最為全面的統一框架。論文項目主頁設于agentic-world-modeling.xyz，配套代碼庫已在GitHub公開，屬早期預印版本，尚未經過同行評審。

"世界模型"的概念混亂與統一框架的必要性

"世界模型"（world model）這一術語在不同研究社區中承載著截然不同的含義：強化學習社區將其理解為用于規劃的環境動態模型，視頻生成領域將其視為逼真的像素預測器，語言智能體社區用它指代LLM對網頁或操作系統狀態的隱式表征，具身AI領域則將其與機器人感知和操控緊密綁定。這種碎片化的術語使用不僅造成了概念混亂，更阻礙了跨社區的知識共享與方法遷移。

這份論文的首要貢獻，是提出了一套名為"能力層級×支配定律"（levels × laws）的統一分類框架，在兩個維度上對世界模型進行系統性定位。

能力層級維度定義了三個遞進的功能等級。L1預測器（Predictor）是最基礎的層級，學習單步局部狀態轉移算子——給定當前狀態與動作，預測下一步狀態。這一層級的代表系統包括早期基于模型的強化學習方法，以及當前大量視頻擴散模型在單幀預測上的應用。L2仿真器（Simulator）是當前最具實用價值的層級，它將單步預測組合為多步、動作條件化的展開軌跡，且這些軌跡必須遵守所在領域的支配定律——物理一致性、軟件狀態邏輯或社會規范約束。MuZero、DreamerV3、GAIA-1等廣受關注的系統均屬于這一層級。L3進化器（Evolver）是論文著力強調的最高層級：當預測失敗、新證據與現有模型相矛盾時，L3系統能夠自主修正自身的世界模型。這意味著系統不再是被動的預測器，而是主動的學習者，能夠識別自身知識邊界并通過實驗填補空白。AI Scientist、MOOSE-Chem、OriGene等面向自主科學發現的系統代表了這一層級的最新進展。

支配定律維度將世界模型的應用領域劃分為四個"管轄區間"，每個區間有其獨特的約束結構與失效模式。物理世界（Physical World）以牛頓力學、熱力學等自然規律為約束，代表系統包括用于機器人操控的DayDreamer、用于自動駕駛的OccWorld與GAIA-1。數字世界（Digital World）以軟件狀態邏輯和API調用規則為約束，網頁導航智能體WebDreamer、GUI操控系統UI-TARS和操作系統基準OSWorld均在此范疇。社會世界（Social World）以社會規范、他人意圖和多智能體博弈為約束，從CICERO的外交游戲策略，到模擬一百萬用戶社交行為的OASIS，再到模擬經濟運行的AIvilization，構成了一條從雙人博弈到文明級仿真的完整譜系。科學世界（Scientific World）則以可證偽的科學假設與實驗邏輯為約束，涵蓋天氣預測的GraphCast和GenCast、蛋白質結構預測的AlphaFold系列、材料發現的A-Lab，以及自主科研的AI Scientist系列。

這一2×4的分類矩陣——三個能力層級與四類支配定律的交叉——產生了十二個分析單元，為不同背景的研究者提供了共同的參照坐標。論文在圖4中給出了一張2018年至2026年間70個代表性系統的時間線路線圖，按層級與定律域著色，直觀呈現了世界模型研究的演化軌跡。

跨域綜合：四類世界的建模現狀與失效邊界

論文最具文獻價值的部分，是對四類支配定律下世界模型現狀的系統性梳理，并對每一類世界的關鍵失效模式做出清晰診斷。

在物理世界，機器人操控與自動駕駛是兩條最成熟的應用主線。TD-MPC2展示了可擴展、魯棒的連續控制能力；DreamerV3將端到端模型訓練推進至橫跨25個不同任務域的通用設置；Aether則在幾何感知框架中統一了重建、動作條件預測與視覺規劃。論文指出，視覺世界模型在物理一致性上的瓶頸尤為突出：標準評估指標如FVD（Fréchet視頻距離）捕捉的是分布真實性，而非規劃可用性——畫面上物體運動流暢，不等于系統正確理解了碰撞約束或重力方向。"干預敏感性脆弱"（fragile intervention sensitivity）被認定為當前物理世界模型最普遍的失效模式：模型可以外推"如果什么都不做會發生什么"，但一旦引入真實的動作干預，預測質量急劇下降。

數字世界的建模挑戰在于軟件環境固有的部分可觀測性與異步性。論文引用數據指出，當向標準基準注入真實的異步失敗場景時，所有最先進的智能體任務完成率均出現顯著下降。當前沒有任何代碼世界模型能夠維護對隱藏后端狀態的信念分布——服務器會話、數據庫行、后臺進程——也無法推理具有可變延遲的異步狀態轉移。這一"部分可觀測軟件即POMDP"的定性，精確指出了GUI和網頁智能體世界模型最亟待突破的理論邊界。

社會世界的模擬成熟度被論文評價為"尚不成熟"，理由有三：當前LLM在二階信念推理之外的理論心智能力急劇衰退、多智能體場景下普遍存在的"角色漂移"（role drift）與目標遺忘、以及形式化承諾追蹤機制尚未被任何LLM架構真正整合。然而，這一領域的規模擴展速度令人矚目：OASIS實現了百萬智能體的社會仿真；ProjectSid在多智能體文明仿真中觀察到了勞動分工和社會專業化的自發涌現；SocioVerse則利用1000萬真實用戶數據校準智能體的社會行為。論文對一個基本設計模式的建議值得關注：將緊湊的社會狀態表征（承諾、約束、關系）、對話生成器與狀態轉移更新器分離，使狀態轉移可記錄、可回溯、可審計。

科學世界是論文中著墨最多、也最具前瞻意義的部分。L3進化器的概念在此得到了最充分的體現：從A-Lab在材料合成中實現的閉環自主實驗循環，到AI Scientist系列通過多智能體辯論演化科學假設，再到OriGene自主發現治療靶標的迭代修正機制，這些系統共同指向了一種前所未有的科研范式——AI不再是人類科學家的工具，而是能夠自主識別知識空白、設計實驗、解讀結果并修正自身假設的科研智能體。論文援引MOOSE-Chem的實驗結果：該系統能夠僅憑2024年前的文獻復現2024年發表于《自然》和《科學》的化學假設，這被視為L3假設生成能力已在自然科學領域具備可行性的實證信號。

評估體系的重構與治理挑戰

論文的另一項重要貢獻是對評估方法論的系統性批判與重構。當前世界模型的評估存在一個根本性的偏差：過度依賴感知質量指標，而忽視了決策可用性——論文稱之為"決策中心評估"（decision-centric evaluation）原則的缺失。以自動駕駛為例，一個渲染出色的世界模型在視覺上看起來完全合理，卻可能在碰撞預測或軌跡規劃上完全失效。報告由此提出了L2層級評估的三個必要維度：長時程一致性（long-horizon coherence）、干預敏感性（intervention sensitivity）和約束一致性（constraint consistency），并建議將這三個維度作為任何世界模型評估報告的基本配置。

治理挑戰是論文結語著重強調的維度。隨著L3進化器在科學和社會領域的部署范圍擴大，一系列尚未得到充分討論的風險正在積聚。論文特別指出，對抗性智能體在社會仿真場景中可能系統性地污染共享狀態，正如網絡釣魚攻擊依賴注入可信文本一樣；現有LLM傾向于溫和的評估和偏向多數方的立場，在模擬有爭議的社會場景時會產生系統性偏差；以及L3系統自主修正模型的能力，使其輸出與人類意圖之間的對齊問題比靜態模型更難以驗證和控制。

這份報告的意義，最終體現在它試圖做的那件事：將原本各自為營的研究社區——強化學習、視頻生成、語言智能體、具身AI、AI for Science——納入統一的分析框架，使不同領域的研究者能夠相互借鑒方法、共享失效經驗、建立可比較的評估基準。這種跨域整合，或許比任何單一的技術突破都更難實現，也因此更具長期價值。從被動的下一步預測到能夠主動重塑其所處環境的世界模型，這條路的終點，是AI系統對現實世界的真正理解——而非僅僅是對其外觀的逼真復現。

閱讀最新前沿科技趨勢報告，請訪問21世紀關鍵技術研究院的“未來知識庫”

未來知識庫是 “21世紀關鍵技術研究院”建立的在線知識庫平臺，收藏的資料范圍包括人工智能、腦科學、互聯網、超級智能，數智大腦、能源、軍事、經濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。

截止到2月28日 ”未來知識庫”精選的百部前沿科技趨勢報告

（加入未來知識庫，全部資料免費閱讀和下載）

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.