網易首頁 > 網易號 > 正文申請入駐

李飛飛對于世界模型的深入淺出講解

2026-07-04 00:08:59　來源: 格上理財網

北京舉報

分享至

作者：李飛飛

來源：財經會議圈（ID：fci0630）

是斯坦福大學教授李飛飛（Fei-Fei Li）以及World Labs團隊最新撰寫的重磅文章。文章針對當前AI領域最火熱、但概念也最模糊的詞匯之一——“世界模型”（World Model），提供了一個清晰的、基于功能分類的“分類學”（Taxonomy）。

世界模型目前被視為是智能體走向自主感知、推理、規劃與生成的重要基礎。作為一個未來趨勢的重要概念，世界模型正被頻繁提及。關于如何理解世界模型的概念和內涵，李飛飛本人在社媒上發布了文章《A Functional Taxonomy of World Models》，深入淺出地講解了世界模型的內涵和功能。

以下為全文翻譯。

世界模型的功能分類

“世界是一切發生的事實。” ——路德維希·維特根斯坦，《邏輯哲學論》，1921年

世界并不由詞語構成。

在此前的一篇文章中，我們提出過一個判斷：空間智能將成為人工智能的下一個前沿，而世界模型是通向空間智能的關鍵路徑。本文中，我和World Labs團隊希望進一步展開這個問題：當前有許多系統都被稱為“世界模型”，但真正構成這一能力的功能部件究竟有哪些？它們各自承擔什么作用？

語言模型已經讓機器在概念、詞匯和推理方面具備了卓越能力。然而，無論是現實世界還是虛擬世界，物理世界都運行在另一種基礎之上。語言模型學習的是文本的統計結構，世界模型學習的則是空間與時間的統計結構：光線如何落在物體表面，一座花園從未被相機拍攝過的角度看起來是什么樣，物體如何受到外力影響，并遵循物理規律運動。

因此，“世界模型”已經成為當今人工智能領域最重要、也最容易被泛化使用的概念之一。計算機視覺、機器人學、強化學習和生成式人工智能都在聲稱自己正在構建世界模型，但它們所指的對象并不相同。一個能夠生成華麗卻不符合物理規律火焰的視頻模型，一個能夠臨時生成可玩游戲的語言模型，一個能夠精確模擬燃燒過程的物理引擎，都可能被稱為世界模型。

古希臘人始終無法就“世界由什么構成”達成一致：它究竟由火構成，由水構成，還是由不可再分的原子構成？根本原因在于，“世界”從來不是一個單一對象。它更像是一種總稱，用來指代某個思想者在推理時所需要把握的整體。人工智能如今繼承了同樣的問題，而且恰好發生在這個領域最需要概念精確性的時刻。

分類背后的基本循環

要澄清這種混亂，需要先回到一張比今天這些技術更早出現的圖。包括Sutton和Barto的經典教材在內，強化學習教科書幾十年來一直使用類似的圖式，來描述智能體如何與世界互動。這個圖式的正式名稱，是部分可觀測馬爾可夫決策過程，也就是POMDP。“世界模型”這一術語最早的技術含義，也正出自這一傳統。

一個智能體，可以是人、機器人，也可以是軟件系統。智能體會采取行動，行動會影響世界的狀態。但智能體從來不能直接看到世界的狀態。它能夠接收到的，是觀測：落在視網膜上的光子，傳感器返回的讀數，視頻幀中的像素。新的觀測會進一步影響新的行動，這一循環由此持續運轉。

這里有必要解釋“狀態”一詞。不同學科對“狀態”的使用并不相同。本文所說的狀態，并不是化學中固體、液體、氣體意義上的狀態，而是物理學和機器人學意義上的狀態：在某一時刻，對世界中正在發生的一切進行完整描述，包括每一個物體、每一個位置、每一個速度、每一種屬性。狀態是世界的底層現實。原則上，它是完整的；但對任何置身其中的智能體而言，它又無法被直接看見。觀測，是智能體對這一現實的局部視圖。行動，則是智能體基于觀測作出的響應。

“智能體—行動—狀態—觀測—智能體”這一循環，構成了現代意義上“世界模型”的技術基礎。這個詞組本身出現得更早，可追溯至Kenneth Craik在1943年提出的觀點：心智能夠通過運行現實的“小尺度模型”來進行推理。到了20世紀80年代末和90年代初，這一思想被引入神經網絡研究。這個循環也解釋了今天人們為何會以不同方式使用“世界模型”一詞：今天被稱為世界模型的各種系統，其實都是這一循環的不同投影。它們各自輸出的是循環中的不同部分。

世界模型的三種功能

第一類世界模型是渲染器（renderer）。渲染器輸出的是觀測，通常表現為供人眼觀看的像素圖像。對渲染器而言，最重要的指標是視覺保真度。一個能夠把文本提示詞變成電影級無人機航拍畫面的視頻模型，就是渲染器。Google的Genie 3這類交互式系統也是渲染器；World Labs自身的RTFM也是如此，它能夠根據用戶輸入實時生成畫面幀。此類模型并不一定擁有明確的三維結構理解。它生成的是“觀看者會看到什么”，而不是“世界真實是什么”。從空中俯瞰，畫面中的建筑也許完美無瑕；但一旦試圖駕駛車輛進入畫面中的城市，結構就可能馬上崩塌。

第二類世界模型是模擬器（simulator）。模擬器輸出的是狀態，也就是在幾何、物理或動態層面上可信的世界表征。人可以理解它，計算機程序也可以在其中計算和交互。渲染器的核心承諾是視覺效果，模擬器的核心承諾則是結構準確。它要求幾何結構能夠經得起檢查，物理過程符合牛頓定律，動態行為按照世界應有的方式演化。模擬器同時服務兩類對象。一類是建筑師、設計師、電影制作人、游戲開發者等人類專業人員，他們需要的不只是“看起來合理”，而是更高層次的準確性。另一類是強化學習智能體、機器人控制器、自動駕駛系統等計算機程序，它們把模擬器作為訓練場，在其中大規模地與世界互動，測試那些在現實中危險、昂貴或難以執行的場景。

第三類世界模型是規劃器（planner）。規劃器輸出的是行動。在給定觀測和目標之后，規劃器要回答的問題是：智能體下一步應當做什么？從某種意義上說，規劃器與渲染器正好相反。渲染器以行動為輸入，輸出觀測；規劃器則以觀測為輸入，輸出行動，從而閉合感知與行動之間的循環。視覺—語言—行動模型、基于模型的系統，以及新一代世界行動模型，本質上都是規劃器的嘗試：它們試圖讓系統能夠判斷機器人在非結構化世界中應當采取什么行動。

這三類模型基本覆蓋了當前已經進入實際交付階段的大部分能力。在實踐中，將它們區分開來非常有價值。不過，這三類并不存在根本性的割裂。關于世界如何運行的底層知識——幾何、物理、動態規律——同時支撐著三者。原則上，一個能夠從任意角度渲染杯子的模型，也應當能夠模擬杯子被推動之后會發生什么，并進一步規劃一只手如何把杯子拿起來。越來越多前沿研究，正在主動模糊這三類模型之間的邊界。

為什么模擬是關鍵環節

在這三類模型中，模擬器受到的公眾關注最少，卻最具決定性意義。本文正是想討論這種不對稱。

渲染器是目前商業化程度最高的一類。一批圖像生成或文本生成視頻產品正在消費級市場和企業級市場快速擴張。Google的Nano Banana模型已經把接近渲染器水準的圖像生成能力帶給了潛在數億用戶。這項技術是真實的，市場也是真實的。但渲染器優化的是視覺可信度，而不是物理準確性。這個上限非常關鍵。它們的輸出可以很美，卻不能被用來嚴肅地設計建筑，也不能被信任地用于訓練機器人。

規劃器最令人興奮，也最處在早期階段。它與快速發展的機器人學習領域緊密相關。過去兩年，機器人領域出現了不少在視頻中看起來很驚艷的演示。但我們也必須坦率地指出，這些演示真正證明的內容非常有限。幾乎所有演示都發生在高度受控的實驗室環境中，物體集合很窄，任務周期很短。它們尚未在真實部署所要求的復雜度、變化性和持續時間上得到驗證。一個吸引人的演示視頻，距離一個能夠在廚房、倉庫或手術室中可靠工作的機器人，仍然相距甚遠。盡管如此，商業投入已經非常龐大。一批資金充足的新進入者正在競相推出通用規劃系統，大型基礎設施公司也在更廣泛的模擬技術棧之上布局規劃能力。能夠規劃的機器人，才是真正能夠工作的機器人。整個行業都在爭奪率先實現這一目標的位置。

模擬正是連接渲染與規劃的橋梁。如果說語言是對世界的抽象，像素是對世界的投影，那么幾何、物理和動態就是世界本身。模擬器必須工作在這一層面上。它是結構性骨架：視覺外觀可以從中推導出來，行動后果也可以從中推導出來。前者服務于渲染器，后者服務于規劃器。

一個真正掌握模擬能力的模型，既可以把自身對世界的理解投射成供人觀看的像素，也可以把這種理解轉化為具身智能體所需的行動預測。一個只掌握渲染，或只掌握規劃的模型，無法同時做到這兩件事。模擬的商業覆蓋面也極為廣闊。僅NVIDIA Omniverse一個方向，就瞄準了NVIDIA所估算的超過一萬億美元可服務市場，覆蓋工廠、倉庫、供應鏈和數字孿生等場景。機器人訓練、自動駕駛測試、建筑可視化、工程設計、藥物發現，都依賴某種形式的模擬能力。

這一領域最困難的開放問題也集中在模擬環節。帶有明確幾何結構、材料屬性和物理標注的三維數據，遠比渲染器訓練所依賴的互聯網視頻稀缺。仿真到現實之間仍然存在差距，也就是同一對象在模擬環境中的行為，與其在現實環境中的行為并不完全一致。生成式模擬器還帶來了新的風險：AI生成的幾何結構看起來正確，但內部可能存在自相交、尺度錯誤等問題，進而導致毫無意義的物理結果。大規模多物理場模擬同樣極其困難。剛體、可變形物體、流體和布料同時發生交互時，計算成本仍然比單一領域模擬高出多個數量級。

在World Labs，Marble是我們進入這一領域的第一步。它可以接收多模態提示，包括文本、圖像、視頻或空間草圖，并生成可探索的三維環境。它的輸出既包括用于視覺探索的Gaussian splats，也包括物理引擎可以操作的碰撞網格。不過，Marble只是一個漫長進程的第一章。隨著渲染、模擬和規劃之間的邊界開始消融，這個進程正在整個領域中展開。

邊界正在消融，下一步正在到來

但這只是開始。當前世界模型領域最重要的趨勢，是三類模型正在逐步融合。其共同基礎在于：渲染一個世界、模擬一個世界、在一個世界中行動，三者所需要的知識在很大程度上是相同的。繼續以前文的杯子為例，如果一個模型真正理解杯子如何放在桌面上，包括它的幾何形狀、材料屬性、受力反應等，那么它就應當能夠從任意角度渲染這個杯子，模擬杯子被推動后的變化，并規劃一只手如何將其拿起。渲染器、模擬器和規劃器，本質上是同一底層世界理解的三種輸出形式。

舉例來說，近期來自不同機器人實驗室的一小批研究已經表明，至少在概念層面上，預訓練的視頻渲染器可以被用作世界預測與行動預測的共同骨干。這為渲染器與規劃器之間建立了一座橋梁：讓同一個模型既能想象接下來會發生什么，也能判斷接下來應當做什么。World Labs的Marble已經能夠由同一個模型輸出Gaussian splats和碰撞網格，從而削弱了渲染器與模擬器之間的界限。各個層級都在從被動輸出走向交互式系統：渲染器開始受到行動條件的控制，模擬器開始生成更可控、更可編輯的世界，規劃器也開始從簡單反應轉向審慎推演。

這一演進的邏輯終點，是統一的世界模型：一個基礎模型能夠渲染照片級真實的視圖，生成物理上準確的結構，并規劃行動序列；同時，它還能根據下游使用者的需要，在不同輸出模態之間切換。

當然，這一路徑仍然面臨許多艱巨挑戰。數據條件并不均衡。渲染器擁有海量互聯網視頻，模擬器和規劃器則嚴重缺乏三維資產和機器人演示數據。對視覺美感的優化，可能犧牲機器人或高保真模擬所需的精確度。如何在同一架構中調和這些矛盾，是當今世界模型研究中最核心的開放問題之一，也是World Labs在持續演進Marble過程中希望解決的問題。

不過，方向已經清晰。自20世紀80年代末以來，人工智能領域一直在押注同一個判斷：一個足夠豐富的世界模型，足以支撐任何智能體看見世界、構建世界，并在世界中行動。今天，這一判斷正在驅動新一代研究。真正讓這場“重大押注”具有分量的，是正在發生的匯聚：三條原本相互獨立的研究脈絡，如今各自都已經推動并塑造了數十億美元規模的產業，而它們正在開始表現得像一個整體。隨著三者邊界不斷消融，它們共同重塑的將不只是某一類技術，而是機器智能與其所處物理世界之間的關系，也就是空間智能的長期演進路徑。

語言讓機器能夠談論這個世界。世界模型，將讓機器最終能夠理解、想象、推理，并與這個世界互動。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.