![]()
整理 | 華衛
在過去 18 個月里,超過 100 億美元資金流入了世界模型與機器人 AI 公司中。一個值得注意的規律是,使用世界模型的公司所獲得的融資規模,甚至超過了專門構建世界模型本身的公司。
毋庸置疑的是,世界模型火了。但其實際概念一直眾說紛紜,讓人摸不著頭腦。
今早,李飛飛和 World Labs 團隊發表了一篇主題為《世界模型的功能性分類》的長文。她直言,“世界模型”成為當今 AI 領域中最重要、同時也最被過度使用的術語之一。上個月,MoE Capital 的 Henry Yin 和 Naomi Xia 也在博客中表示,大多數被冠以“世界模型”之名的東西根本不是真正的世界模型。
在這個當下,李飛飛這篇文章提供了一種難得的清晰框架,通過引入強化學習中的經典結構,完整解釋了“世界模型”的定義,將當前紛繁復雜的生成模型、物理模擬系統與具身智能方法,從功能上劃分為“渲染器、模擬器與規劃器”三類世界模型。
對于正處于路線分化與資本競逐中的 AI 產業而言,這不僅是一種技術分類,更像是一份關于未來主導權的路線圖。在這一劃分下,原本獨立的不同技術路徑首次被置于統一坐標系中比較。李飛飛同時指出,三者正在開始彼此融合:“當它們的邊界消失時,它們將共同重塑更宏大的東西:機器智能與其所處物理世界之間的關系,這是空間智能的長期演進軌跡。”
而在她看來,“終點是一個統一的世界模型:一個基礎模型,既能渲染照片級真實視圖,又能生成物理準確的結構,還能規劃行動序列,并根據下游需求在不同輸出模式之間切換。”
她在文末點出,“語言讓機器能夠談論世界。而世界模型,將讓機器最終能夠理解、想象、推理并與世界互動。”其背后隱含的判斷也相當明確:真正決定下一階段 AI 上限的,不是更會“說話”的模型,而是更接近物理真實的“模擬能力”。
以下是原文內容編譯,我們在不改變原意的基礎上進行了編輯。
世界不是由語言構成的
在此前的一篇文章中,我們曾論證,空間智能是人工智能的下一個前沿,而世界模型是通往這一目標的路徑。在這里,World Labs 團隊和我希望再深入一層:在如今被構建并被稱為“世界模型”的眾多事物中,究竟哪些功能性組件真正構成了這種能力,以及每一部分分別用于什么?
語言模型賦予機器對概念、詞匯和推理的非凡掌控能力,但無論是虛擬世界還是真實世界,物理世界運行在一種完全不同的底層結構之上。語言模型學習的是文本的統計結構,而世界模型學習的是時空的統計結構:光如何落在表面上,一個花園從從未被相機捕捉過的角度看起來如何,物體如何對力作出反應并遵循物理定律。
這使得“世界模型”成為當今 AI 領域中最重要、同時也最被過度使用的術語之一。計算機視覺、機器人學、強化學習和生成式 AI 都聲稱在構建世界模型,但各自指代的卻是完全不同的東西。一個能夠生成華麗但物理上不可能火焰的視頻模型,一個即興生成可玩游戲的語言模型,以及一個忠實模擬燃燒過程的物理引擎,都會被稱為同一個名字。
古希臘人從未就世界由什么構成達成一致,是火、水還是不可分割的原子,因為“世界”從來就不是一個單一事物。它始終只是一個替代性概念,用來指代某個思想家需要進行推理的整體。AI 在此刻繼承了同樣的問題,而此時這個領域恰恰最需要精確性。
分類之下的循環
要理清這種混亂,可以從一個比上述任何技術都更古老的圖式開始。強化學習教材包括 Sutton 和 Barto 的經典著作,幾十年來一直使用類似的圖來描述智能體如何與世界交互。這個圖的正式名稱是“部分可觀測馬爾可夫決策過程”(POMDP),而“世界模型”這一術語最初正源于這一傳統。
一個智能體可以是人、機器人或軟件系統,來采取行動。這些行動會影響世界的狀態。智能體永遠無法直接看到狀態。它所接收到的是觀測:落在視網膜上的光子、傳感器的讀數、視頻幀中的像素。新的觀測會引導新的行動,如此循環往復。
“狀態”這個詞需要展開說明,因為它在不同領域中的含義會有所變化。這里指的不是化學中的狀態(固態、液態、氣態),而是物理學和機器人學中的狀態:在某一時刻對世界正在發生的一切的完整描述,包括每一個物體、每一個位置、每一個速度、每一個屬性。狀態是世界的底層現實;在原則上是完整的,但對其中的任何智能體而言都不可直接觀察。觀測是智能體對這一現實的部分視圖。行動是智能體對此作出的響應。
這個循環從智能體到行動到狀態、再到觀測,然后回到智能體,構成了現代“世界模型”這一術語的結構基礎。這個短語本身更早,可以追溯到 Kenneth Craik 在 1943 年提出的觀點:心智通過運行現實的“小規模模型”來進行推理;這一思想在 1980 年代末到 1990 年代初被引入神經網絡領域。這個循環也解釋了人們今天如何使用這一術語:如今被稱為世界模型的不同事物,其實是這個循環的不同投影,每一種輸出其中的不同部分。
世界模型的三類功能
第一類世界模型是“渲染器”。渲染器輸出的是觀測,以供人眼觀看的像素形式呈現,其最重要的指標是視覺保真度。一個將文本提示轉換為電影級航拍鏡頭的視頻模型就是渲染器。像 Google 的 Genie 3 或 World Labs 自己的 RTFM 這樣的交互式系統也是如此,它們能夠在用戶輸入條件下實時生成畫面。這類模型并不具備對三維結構的顯式理解。它們生成的是“看起來是什么”,而不是“實際上是什么”。航拍鏡頭中的建筑從上方看可能完美無瑕,但一旦試圖在城市中行駛,這些結構就會崩塌。
第二類是“模擬器”。模擬器輸出的是狀態:一種在幾何、物理或動態上都忠實于世界的表示,人類和計算機程序都可以對其進行計算和交互。渲染器的契約是純視覺的,而模擬器的契約是結構性的,它要求幾何在檢查下成立、物理遵循牛頓定律、動態行為符合世界在物理規律下應有的表現。模擬器同時服務兩類對象:一類是人類專業人士,如建筑師、設計師、電影制作人和游戲開發者,他們需要超越視覺合理性的精確性;另一類是計算機程序,如強化學習智能體、機器人控制器和自動駕駛系統,它們將模擬器作為訓練環境,在其中以規模化方式與世界交互,測試那些在現實中危險、昂貴或不可能執行的場景。
第三類是“規劃器”。規劃器輸出的是行動。在給定觀測和目標的情況下,規劃器回答智能體下一步應該做什么。在很多方面,它是渲染器的反向過程:渲染器以行動為輸入生成觀測,而規劃器以觀測為輸入生成行動,從而閉合感知—行動循環。視覺 - 語言 - 動作模型、基于模型的方法以及新一代的 World Action Models 都是在嘗試構建規劃器,能夠在非結構化世界中決定機器人該做什么的系統。
這三類涵蓋了當前實際落地的大多數系統,這種區分在實踐中也很有用。然而,它們在根本上并不是彼此獨立的。關于世界如何運作的同一底層知識,幾何、物理和動力學支撐著它們全部。一個能夠從任意角度渲染杯子的模型,從原則上也應該能夠模擬杯子被推動時會發生什么,并規劃一只手去抓起它。越來越多最有趣的研究,正是有意模糊這三者之間的界限。
為什么模擬是關鍵?
在這三類中,模擬器獲得的公眾關注最少,卻是三者中最具決定性的。這篇文章正是要討論這種不對稱。
渲染器在商業上最為成熟。大量圖像或文本生成視頻的產品正在消費級和企業市場快速擴張。Google 的 Nano Banana 模型已經將高質量圖像生成能力帶到了可能數億用戶手中。技術是真實的,市場也是真實的。然而,渲染器優化的是視覺合理性而非物理準確性,這一上限非常重要。它們的輸出美麗,但無法用于設計建筑或訓練機器人。
規劃器最具吸引力,同時也最為初期,它與快速發展的機器人學習領域緊密相關。過去兩年中,該領域展示了許多看起來令人印象深刻的機器人演示視頻,但需要坦誠地看待這些演示的實際含義。幾乎所有演示都局限在高度受控的實驗室環境中,使用有限的物體集合和短任務周期。沒有任何系統在現實世界部署所需的復雜性、變化性或持續時間上得到驗證。從令人驚艷的演示到在廚房、倉庫或手術室中可靠工作的機器人之間,仍存在巨大的差距。盡管如此,商業投入依然巨大。一批資金雄厚的新進入者正在競相推出通用規劃系統,而最大的基礎設施玩家則在更廣泛的模擬體系之上布局規劃能力。一個能夠進行規劃的機器人,才是一個能夠工作的機器人,整個行業都在爭奪這一目標。
模擬正是連接兩者的橋梁。如果說語言是對世界的抽象,像素是對世界的投影,那么幾何、物理和動力學就是世界本身。模擬器必須在這一層面運作:這是一個結構性的骨架,從中既可以導出視覺外觀(供渲染器使用),也可以導出行動結果(供規劃器使用)。
一個掌握了模擬能力的模型,可以將其理解投射為供人類使用的像素,也可以投射為供具身智能體使用的行動預測。而一個只掌握渲染或只掌握規劃的模型,則無法做到這兩點。其商業空間巨大。僅 NVIDIA 的 Omniverse 就瞄準了公司估計超過一萬億美元的潛在市場,涵蓋工廠、倉庫、供應鏈和數字孿生。機器人訓練、自動駕駛測試、建筑可視化、工程設計以及藥物發現等領域,都依賴某種形式的模擬。
該領域最困難的開放問題也集中于此。具有明確幾何、材料屬性和物理標注的三維數據,相比渲染器所依賴的互聯網視頻要稀缺得多。“仿真到現實”的差距仍然存在,即模擬中的行為與現實中的行為之間的差異。在此基礎上,生成式模擬器還引入了新的風險:AI 生成的幾何可能看起來正確,但卻包含自相交或尺度錯誤,從而導致物理行為毫無意義。多物理場的大規模模擬剛體、可變形物體、流體和布料相互作用,在計算成本上仍比單一領域模擬高出數個數量級。
在 World Labs,我們的 Marble 是進入這一領域的第一步。它可以接受多模態提示(文本、圖像、視頻或空間草圖),生成可探索的三維環境,同時輸出用于視覺探索的 Gaussian splats,以及供物理引擎使用的碰撞網格。但 Marble 只是一個開端,整個領域正在書寫一條更長的軌跡,渲染、模擬與規劃之間的界限正在逐漸消融。
界限正在崩塌,接下來會發生什么?
未來還會有更多發展。當前該領域最重要的趨勢是,這三類正在開始彼此融合。共同的洞見是:渲染世界、模擬世界以及在世界中行動所需的知識,本質上是相同的。延續之前的例子,一個真正理解杯子如何放在桌面上的模型(包括其幾何、材料屬性、受力響應等),應該能夠從任意角度渲染該杯子,模擬推動它時會發生什么,并規劃一只手去抓起它。這三類其實是同一底層理解的三種投影。
例如,來自多個機器人實驗室的一些最新工作已經表明,至少在概念上,一個預訓練的視頻渲染器可以作為聯合世界與行動預測的基礎,從而在渲染器與規劃器之間建立橋梁,讓同一個模型既能想象會發生什么,也能決定該做什么。World Labs 的 Marble 已經能夠從一個模型中同時輸出 Gaussian splats 和碰撞網格,從而打破了渲染器與模擬器之間的界限。每一層都在從被動輸出轉向交互系統:渲染器變得可由行動條件控制,模擬器生成的世界更加可控和可編輯,而規劃器則從簡單反應轉向更具推理能力的決策。
其邏輯終點是一個統一的世界模型:一個基礎模型,既能渲染照片級真實視圖,又能生成物理準確的結構,還能規劃行動序列,并根據下游需求在不同輸出模式之間切換。當然,我們仍將面臨諸多挑戰。數據分布極不均衡:渲染器擁有海量互聯網視頻,而模擬器和規劃器卻嚴重缺乏三維資產和機器人演示數據。對視覺美感的優化,可能會犧牲機器人或高保真模擬所需的精確性。在同一架構中調和這些張力,是當今世界模型研究中最核心的開放問題,也是 World Labs 在推進 Marble 過程中試圖解決的方向。
方向已經非常清晰。自 1980 年代末以來,該領域一直在押注:只要擁有足夠豐富的世界模型,智能體就能夠觀察世界、構建世界并在其中行動。如今,這一“重大賭注”正在驅動新一代研究,其力量來自正在發生的融合:三條原本獨立的研究路徑,各自已經支撐起數十億美元產業,開始表現得像一個整體。當它們的邊界消失時,它們將共同重塑更宏大的東西:機器智能與其所處物理世界之間的關系,空間智能的長期演進軌跡。
語言讓機器能夠談論世界。而世界模型,將讓機器最終能夠理解、想象、推理并與世界互動。
https://x.com/drfeifei/status/2062247238143996275
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.