網易首頁 > 網易號 > 正文申請入駐

別再碰瓷 100 億美元“身價”的世界模型了，李飛飛這次手把手教你分辨

2026-06-08 14:36:20　來源: InfoQ

北京舉報

分享至

整理 | 華衛

在過去 18 個月里，超過 100 億美元資金流入了世界模型與機器人 AI 公司中。一個值得注意的規律是，使用世界模型的公司所獲得的融資規模，甚至超過了專門構建世界模型本身的公司。

毋庸置疑的是，世界模型火了。但其實際概念一直眾說紛紜，讓人摸不著頭腦。

今早，李飛飛和 World Labs 團隊發表了一篇主題為《世界模型的功能性分類》的長文。她直言，“世界模型”成為當今 AI 領域中最重要、同時也最被過度使用的術語之一。上個月，MoE Capital 的 Henry Yin 和 Naomi Xia 也在博客中表示，大多數被冠以“世界模型”之名的東西根本不是真正的世界模型。

在這個當下，李飛飛這篇文章提供了一種難得的清晰框架，通過引入強化學習中的經典結構，完整解釋了“世界模型”的定義，將當前紛繁復雜的生成模型、物理模擬系統與具身智能方法，從功能上劃分為“渲染器、模擬器與規劃器”三類世界模型。

對于正處于路線分化與資本競逐中的 AI 產業而言，這不僅是一種技術分類，更像是一份關于未來主導權的路線圖。在這一劃分下，原本獨立的不同技術路徑首次被置于統一坐標系中比較。李飛飛同時指出，三者正在開始彼此融合：“當它們的邊界消失時，它們將共同重塑更宏大的東西：機器智能與其所處物理世界之間的關系，這是空間智能的長期演進軌跡。”

而在她看來，“終點是一個統一的世界模型：一個基礎模型，既能渲染照片級真實視圖，又能生成物理準確的結構，還能規劃行動序列，并根據下游需求在不同輸出模式之間切換。”

她在文末點出，“語言讓機器能夠談論世界。而世界模型，將讓機器最終能夠理解、想象、推理并與世界互動。”其背后隱含的判斷也相當明確：真正決定下一階段 AI 上限的，不是更會“說話”的模型，而是更接近物理真實的“模擬能力”。

以下是原文內容編譯，我們在不改變原意的基礎上進行了編輯。

世界不是由語言構成的

在此前的一篇文章中，我們曾論證，空間智能是人工智能的下一個前沿，而世界模型是通往這一目標的路徑。在這里，World Labs 團隊和我希望再深入一層：在如今被構建并被稱為“世界模型”的眾多事物中，究竟哪些功能性組件真正構成了這種能力，以及每一部分分別用于什么？

語言模型賦予機器對概念、詞匯和推理的非凡掌控能力，但無論是虛擬世界還是真實世界，物理世界運行在一種完全不同的底層結構之上。語言模型學習的是文本的統計結構，而世界模型學習的是時空的統計結構：光如何落在表面上，一個花園從從未被相機捕捉過的角度看起來如何，物體如何對力作出反應并遵循物理定律。

這使得“世界模型”成為當今 AI 領域中最重要、同時也最被過度使用的術語之一。計算機視覺、機器人學、強化學習和生成式 AI 都聲稱在構建世界模型，但各自指代的卻是完全不同的東西。一個能夠生成華麗但物理上不可能火焰的視頻模型，一個即興生成可玩游戲的語言模型，以及一個忠實模擬燃燒過程的物理引擎，都會被稱為同一個名字。

古希臘人從未就世界由什么構成達成一致，是火、水還是不可分割的原子，因為“世界”從來就不是一個單一事物。它始終只是一個替代性概念，用來指代某個思想家需要進行推理的整體。AI 在此刻繼承了同樣的問題，而此時這個領域恰恰最需要精確性。

分類之下的循環

要理清這種混亂，可以從一個比上述任何技術都更古老的圖式開始。強化學習教材包括 Sutton 和 Barto 的經典著作，幾十年來一直使用類似的圖來描述智能體如何與世界交互。這個圖的正式名稱是“部分可觀測馬爾可夫決策過程”（POMDP），而“世界模型”這一術語最初正源于這一傳統。

一個智能體可以是人、機器人或軟件系統，來采取行動。這些行動會影響世界的狀態。智能體永遠無法直接看到狀態。它所接收到的是觀測：落在視網膜上的光子、傳感器的讀數、視頻幀中的像素。新的觀測會引導新的行動，如此循環往復。

“狀態”這個詞需要展開說明，因為它在不同領域中的含義會有所變化。這里指的不是化學中的狀態（固態、液態、氣態），而是物理學和機器人學中的狀態：在某一時刻對世界正在發生的一切的完整描述，包括每一個物體、每一個位置、每一個速度、每一個屬性。狀態是世界的底層現實；在原則上是完整的，但對其中的任何智能體而言都不可直接觀察。觀測是智能體對這一現實的部分視圖。行動是智能體對此作出的響應。

這個循環從智能體到行動到狀態、再到觀測，然后回到智能體，構成了現代“世界模型”這一術語的結構基礎。這個短語本身更早，可以追溯到 Kenneth Craik 在 1943 年提出的觀點：心智通過運行現實的“小規模模型”來進行推理；這一思想在 1980 年代末到 1990 年代初被引入神經網絡領域。這個循環也解釋了人們今天如何使用這一術語：如今被稱為世界模型的不同事物，其實是這個循環的不同投影，每一種輸出其中的不同部分。

世界模型的三類功能

第一類世界模型是“渲染器”。渲染器輸出的是觀測，以供人眼觀看的像素形式呈現，其最重要的指標是視覺保真度。一個將文本提示轉換為電影級航拍鏡頭的視頻模型就是渲染器。像 Google 的 Genie 3 或 World Labs 自己的 RTFM 這樣的交互式系統也是如此，它們能夠在用戶輸入條件下實時生成畫面。這類模型并不具備對三維結構的顯式理解。它們生成的是“看起來是什么”，而不是“實際上是什么”。航拍鏡頭中的建筑從上方看可能完美無瑕，但一旦試圖在城市中行駛，這些結構就會崩塌。

第二類是“模擬器”。模擬器輸出的是狀態：一種在幾何、物理或動態上都忠實于世界的表示，人類和計算機程序都可以對其進行計算和交互。渲染器的契約是純視覺的，而模擬器的契約是結構性的，它要求幾何在檢查下成立、物理遵循牛頓定律、動態行為符合世界在物理規律下應有的表現。模擬器同時服務兩類對象：一類是人類專業人士，如建筑師、設計師、電影制作人和游戲開發者，他們需要超越視覺合理性的精確性；另一類是計算機程序，如強化學習智能體、機器人控制器和自動駕駛系統，它們將模擬器作為訓練環境，在其中以規模化方式與世界交互，測試那些在現實中危險、昂貴或不可能執行的場景。

第三類是“規劃器”。規劃器輸出的是行動。在給定觀測和目標的情況下，規劃器回答智能體下一步應該做什么。在很多方面，它是渲染器的反向過程：渲染器以行動為輸入生成觀測，而規劃器以觀測為輸入生成行動，從而閉合感知—行動循環。視覺 - 語言 - 動作模型、基于模型的方法以及新一代的 World Action Models 都是在嘗試構建規劃器，能夠在非結構化世界中決定機器人該做什么的系統。

這三類涵蓋了當前實際落地的大多數系統，這種區分在實踐中也很有用。然而，它們在根本上并不是彼此獨立的。關于世界如何運作的同一底層知識，幾何、物理和動力學支撐著它們全部。一個能夠從任意角度渲染杯子的模型，從原則上也應該能夠模擬杯子被推動時會發生什么，并規劃一只手去抓起它。越來越多最有趣的研究，正是有意模糊這三者之間的界限。

為什么模擬是關鍵？

在這三類中，模擬器獲得的公眾關注最少，卻是三者中最具決定性的。這篇文章正是要討論這種不對稱。

渲染器在商業上最為成熟。大量圖像或文本生成視頻的產品正在消費級和企業市場快速擴張。Google 的 Nano Banana 模型已經將高質量圖像生成能力帶到了可能數億用戶手中。技術是真實的，市場也是真實的。然而，渲染器優化的是視覺合理性而非物理準確性，這一上限非常重要。它們的輸出美麗，但無法用于設計建筑或訓練機器人。

規劃器最具吸引力，同時也最為初期，它與快速發展的機器人學習領域緊密相關。過去兩年中，該領域展示了許多看起來令人印象深刻的機器人演示視頻，但需要坦誠地看待這些演示的實際含義。幾乎所有演示都局限在高度受控的實驗室環境中，使用有限的物體集合和短任務周期。沒有任何系統在現實世界部署所需的復雜性、變化性或持續時間上得到驗證。從令人驚艷的演示到在廚房、倉庫或手術室中可靠工作的機器人之間，仍存在巨大的差距。盡管如此，商業投入依然巨大。一批資金雄厚的新進入者正在競相推出通用規劃系統，而最大的基礎設施玩家則在更廣泛的模擬體系之上布局規劃能力。一個能夠進行規劃的機器人，才是一個能夠工作的機器人，整個行業都在爭奪這一目標。

模擬正是連接兩者的橋梁。如果說語言是對世界的抽象，像素是對世界的投影，那么幾何、物理和動力學就是世界本身。模擬器必須在這一層面運作：這是一個結構性的骨架，從中既可以導出視覺外觀（供渲染器使用），也可以導出行動結果（供規劃器使用）。

一個掌握了模擬能力的模型，可以將其理解投射為供人類使用的像素，也可以投射為供具身智能體使用的行動預測。而一個只掌握渲染或只掌握規劃的模型，則無法做到這兩點。其商業空間巨大。僅 NVIDIA 的 Omniverse 就瞄準了公司估計超過一萬億美元的潛在市場，涵蓋工廠、倉庫、供應鏈和數字孿生。機器人訓練、自動駕駛測試、建筑可視化、工程設計以及藥物發現等領域，都依賴某種形式的模擬。

該領域最困難的開放問題也集中于此。具有明確幾何、材料屬性和物理標注的三維數據，相比渲染器所依賴的互聯網視頻要稀缺得多。“仿真到現實”的差距仍然存在，即模擬中的行為與現實中的行為之間的差異。在此基礎上，生成式模擬器還引入了新的風險：AI 生成的幾何可能看起來正確，但卻包含自相交或尺度錯誤，從而導致物理行為毫無意義。多物理場的大規模模擬剛體、可變形物體、流體和布料相互作用，在計算成本上仍比單一領域模擬高出數個數量級。

在 World Labs，我們的 Marble 是進入這一領域的第一步。它可以接受多模態提示（文本、圖像、視頻或空間草圖），生成可探索的三維環境，同時輸出用于視覺探索的 Gaussian splats，以及供物理引擎使用的碰撞網格。但 Marble 只是一個開端，整個領域正在書寫一條更長的軌跡，渲染、模擬與規劃之間的界限正在逐漸消融。

界限正在崩塌，接下來會發生什么？

未來還會有更多發展。當前該領域最重要的趨勢是，這三類正在開始彼此融合。共同的洞見是：渲染世界、模擬世界以及在世界中行動所需的知識，本質上是相同的。延續之前的例子，一個真正理解杯子如何放在桌面上的模型（包括其幾何、材料屬性、受力響應等），應該能夠從任意角度渲染該杯子，模擬推動它時會發生什么，并規劃一只手去抓起它。這三類其實是同一底層理解的三種投影。

例如，來自多個機器人實驗室的一些最新工作已經表明，至少在概念上，一個預訓練的視頻渲染器可以作為聯合世界與行動預測的基礎，從而在渲染器與規劃器之間建立橋梁，讓同一個模型既能想象會發生什么，也能決定該做什么。World Labs 的 Marble 已經能夠從一個模型中同時輸出 Gaussian splats 和碰撞網格，從而打破了渲染器與模擬器之間的界限。每一層都在從被動輸出轉向交互系統：渲染器變得可由行動條件控制，模擬器生成的世界更加可控和可編輯，而規劃器則從簡單反應轉向更具推理能力的決策。

其邏輯終點是一個統一的世界模型：一個基礎模型，既能渲染照片級真實視圖，又能生成物理準確的結構，還能規劃行動序列，并根據下游需求在不同輸出模式之間切換。當然，我們仍將面臨諸多挑戰。數據分布極不均衡：渲染器擁有海量互聯網視頻，而模擬器和規劃器卻嚴重缺乏三維資產和機器人演示數據。對視覺美感的優化，可能會犧牲機器人或高保真模擬所需的精確性。在同一架構中調和這些張力，是當今世界模型研究中最核心的開放問題，也是 World Labs 在推進 Marble 過程中試圖解決的方向。

方向已經非常清晰。自 1980 年代末以來，該領域一直在押注：只要擁有足夠豐富的世界模型，智能體就能夠觀察世界、構建世界并在其中行動。如今，這一“重大賭注”正在驅動新一代研究，其力量來自正在發生的融合：三條原本獨立的研究路徑，各自已經支撐起數十億美元產業，開始表現得像一個整體。當它們的邊界消失時，它們將共同重塑更宏大的東西：機器智能與其所處物理世界之間的關系，空間智能的長期演進軌跡。

語言讓機器能夠談論世界。而世界模型，將讓機器最終能夠理解、想象、推理并與世界互動。

https://x.com/drfeifei/status/2062247238143996275

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.