李飛飛：世界模型的功能分類

2026-06-13 15:34:15　來源: 人工智能學(xué)家

北京舉報(bào)

分享至

來源：The AI Frontier

這是斯坦福大學(xué)教授李飛飛（Fei-Fei Li）以及 World Labs 團(tuán)隊(duì)最新撰寫的重磅文章。文章針對當(dāng)前 AI 領(lǐng)域最火熱、但概念也最模糊的詞匯之一——“世界模型”（World Model），提供了一個(gè)清晰的、基于功能分類的“分類學(xué)”（Taxonomy）。

以下是該文章的全文中文翻譯：

“世界是一切發(fā)生的事情。”

—— 路德維希·維特根斯坦，《邏輯哲學(xué)論》，1921年

世界并非由文字組成。

在之前的一篇文章中，我們曾提出：空間智能（Spatial Intelligence）是 AI 的下一個(gè)前沿，而世界模型則是通往這一前沿的必由之路。在這里，我和 World Labs 團(tuán)隊(duì)希望更進(jìn)一步地探討：在當(dāng)前各種被構(gòu)建并被稱為“世界模型”的事物中，究竟是哪些“功能模塊”真正組成了這種能力？而每一個(gè)模塊又是用來做什么的？

語言模型賦予了機(jī)器對概念、詞匯和推理的非凡掌控力，但物理世界（無論是虛擬的還是現(xiàn)實(shí)的）運(yùn)行在完全不同的底層（substrate）上。語言模型學(xué)習(xí)的是文本的統(tǒng)計(jì)結(jié)構(gòu)，而世界模型學(xué)習(xí)的則是空間和時(shí)間的統(tǒng)計(jì)結(jié)構(gòu)：光線如何落在表面上、一個(gè)花園從從未被相機(jī)捕捉過的角度看過去是怎樣的、物體如何對力做出反應(yīng)并遵循物理定律。

這使得“世界模型”成為當(dāng)今 AI 領(lǐng)域最重要、但也最被濫用的術(shù)語之一。計(jì)算機(jī)視覺、機(jī)器人技術(shù)、強(qiáng)化學(xué)習(xí)和生成式 AI 都在聲稱自己正在構(gòu)建世界模型，但各自所指的含義卻大相徑庭。一個(gè)能生成絢麗但物理上不可能存在的火焰的視頻模型、一個(gè)能即興創(chuàng)作可玩游戲的語言模型、以及一個(gè)能忠實(shí)模擬燃燒的物理引擎，都在使用這同一個(gè)名字。

古希臘人永遠(yuǎn)無法在世界是由什么組成的問題上達(dá)成一致——究竟是火、水，還是不可分割的原子？因?yàn)椤笆澜纭睆膩矶疾皇且粋€(gè)單一的東西，它總是某個(gè)思想家需要用來進(jìn)行推理的“總體（totality）”的代名詞。如今，AI 領(lǐng)域也繼承了同樣的困境，而這恰恰發(fā)生在整個(gè)行業(yè)急需“精準(zhǔn)定義”的時(shí)刻。

分類學(xué)底層的閉環(huán)

要理清這些混亂，需要從一個(gè)比文中所涉及的任何技術(shù)都要古老的圖表開始。幾十年來，包括 Sutton 和 Barto 的經(jīng)典教材在內(nèi)的強(qiáng)化學(xué)習(xí)教科書，一直使用同一個(gè)圖表來描述智能體（agent）如何與世界進(jìn)行交互。這個(gè)圖表的正式名稱是部分可觀測馬爾可夫決策過程（POMDP），而“世界模型”這個(gè)詞最初的定義正是源于這一傳統(tǒng)。

一個(gè)智能體（可以是一個(gè)人、一個(gè)機(jī)器人或一個(gè)軟件系統(tǒng)）采取行動(dòng)（Actions）。這些行動(dòng)會(huì)影響世界的狀態(tài)（State）。智能體永遠(yuǎn)無法直接看到狀態(tài)。到達(dá)智能體的是觀測（Observations）：落在視網(wǎng)膜上的光子、傳感器的讀數(shù)、視頻幀中的像素。新的觀測指導(dǎo)新的行動(dòng)，如此循環(huán)往復(fù)。

“狀態(tài)”這個(gè)詞需要詳細(xì)拆解，因?yàn)樗暮x因領(lǐng)域而異。這不是化學(xué)家所說的“狀態(tài)”（固體、液體和氣體之間的區(qū)別），而是物理學(xué)家和機(jī)器人學(xué)家所說的“狀態(tài)”：在給定時(shí)刻對世界上所發(fā)生事情的完整描述，包括每一個(gè)物體、每一個(gè)位置、每一個(gè)速度和每一個(gè)屬性。狀態(tài)是世界的底層現(xiàn)實(shí)；在原理上它是完整的，但對于身處其中的任何智能體來說，它都是不可直接完全可見的。觀測是智能體對該現(xiàn)實(shí)的局部視圖，而行動(dòng)則是智能體做出的響應(yīng)。

這個(gè)閉環(huán)——從智能體到行動(dòng)，到狀態(tài)，到觀測，再返回——構(gòu)成了現(xiàn)代術(shù)語“世界模型”的技術(shù)含義。這個(gè)詞本身歷史更悠久，可以追溯到肯尼斯·克雷克（Kenneth Craik）在1943年提出的理論，即大腦通過運(yùn)行現(xiàn)實(shí)的“小規(guī)模模型”來做出推理，并在1980年代末和1990年代初被引入到神經(jīng)網(wǎng)絡(luò)中。這個(gè)閉環(huán)也解釋了今天人們使用這個(gè)詞的真正含義：目前所有被稱為世界模型的東西，實(shí)際上都是這個(gè)相同閉環(huán)的不同投射（projections）。每一種模型都輸出這個(gè)閉環(huán)中的不同部分。

世界模型的三大功能
1. 渲染器（Renderer）

第一種世界模型是渲染器。渲染器輸出供人類眼睛觀看的像素形式的觀測（Observations），其最核心的指標(biāo)是視覺保真度（visual fidelity）。一個(gè)將文本提示詞轉(zhuǎn)化為電影級(jí)無人機(jī)航拍鏡頭的視頻模型就是渲染器。像谷歌的 Genie 3，或者 World Labs 自研的 RTFM 這樣的交互式系統(tǒng)也是渲染器，這些模型能夠根據(jù)用戶的輸入實(shí)時(shí)生成幀。

然而，這種模型并不包含對三維結(jié)構(gòu)的顯式理解。它產(chǎn)生的是觀眾“會(huì)看到什么”，而不是“存在什么”。航拍鏡頭中的建筑從上方看可能天衣無縫，但如果你試圖駕車穿過下方的城市，它們就會(huì)分崩離析。

2. 模擬器（Simulator）

第二種是模擬器。模擬器輸出的是狀態(tài)（State）：一個(gè)在幾何、物理或動(dòng)力學(xué)上忠實(shí)的世界表征，人類和計(jì)算機(jī)程序都可以對其進(jìn)行計(jì)算和交互。渲染器的契約純粹是視覺上的，而模擬器的契約則是結(jié)構(gòu)性的——它要求幾何圖形經(jīng)得起推敲、物理學(xué)遵循牛頓定律、動(dòng)力學(xué)行為符合物理定律下的應(yīng)有表現(xiàn)。

模擬器同時(shí)為兩類“消費(fèi)者”服務(wù)：

人類專業(yè)人士（如建筑師、設(shè)計(jì)師、電影制作人和游戲開發(fā)者）需要超越單純“視覺合理性”的準(zhǔn)確性。

計(jì)算機(jī)程序（如強(qiáng)化學(xué)習(xí)智能體、機(jī)器人控制器和自動(dòng)駕駛汽車）將模擬器作為訓(xùn)練場，使其能夠大規(guī)模地與世界交互，測試在現(xiàn)實(shí)中執(zhí)行起來過于危險(xiǎn)、昂貴或不可能實(shí)現(xiàn)的場景。

3. 規(guī)劃器（Planner）

第三種是規(guī)劃器。規(guī)劃器輸出的是行動(dòng)（Actions）。給定一個(gè)觀測和一個(gè)目標(biāo)，規(guī)劃器要回答的是智能體下一步應(yīng)該做什么。這在許多方面是渲染器的逆過程。渲染器輸入行動(dòng)并產(chǎn)生觀測，而規(guī)劃器則是輸入觀測并產(chǎn)生行動(dòng)，從而閉合了“感知-行動(dòng)”的循環(huán)。

視覺-語言-行動(dòng)模型（VLA）、基于模型的系統(tǒng)（model-based systems）以及新一波的“世界行動(dòng)模型”（World Action Models），都是構(gòu)建規(guī)劃器的嘗試：這些系統(tǒng)旨在決定機(jī)器人在非結(jié)構(gòu)化世界中應(yīng)該做什么。

這三個(gè)類別涵蓋了目前市面上正在交付的大部分產(chǎn)品，且這種區(qū)分在實(shí)踐中非常實(shí)用。然而，這些類別在根本上并不是割裂的。支撐所有這些模型底層的，是關(guān)于世界如何運(yùn)行（幾何、物理、動(dòng)力學(xué)）的同一種底層知識(shí)。理論上，一個(gè)能夠從任何角度渲染杯子的模型，也應(yīng)該能夠模擬杯子被推時(shí)會(huì)發(fā)生什么，并規(guī)劃一只手去把它撿起來。越來越多最前沿的研究正在有意模糊這三者之間的界限。

為什么模擬仿真器是核心支柱

在這三個(gè)類別中，模擬器（Simulator）獲得的大眾關(guān)注最少，但它的重要性卻最為深遠(yuǎn)。本文正是為了解決這種不對稱性。

渲染器是目前商業(yè)上最成熟的。許多圖像或文本轉(zhuǎn)視頻的產(chǎn)品正在消費(fèi)級(jí)和企業(yè)級(jí)市場快速擴(kuò)張。谷歌的 Nano Banana 模型已經(jīng)讓可能數(shù)以億計(jì)的用戶體驗(yàn)到了渲染器級(jí)別的圖像生成。技術(shù)是真實(shí)的，市場也是真實(shí)的。然而，渲染器優(yōu)化的是“視覺合理性”而非“物理準(zhǔn)確性”，這一天花板至關(guān)重要。它們的輸出很美，但你無法信任它們?nèi)ピO(shè)計(jì)一棟建筑或訓(xùn)練一個(gè)機(jī)器人。

規(guī)劃器是最具吸引力也是最年輕的，它與快速發(fā)展的機(jī)器人學(xué)習(xí)領(lǐng)域緊密相連。該領(lǐng)域在過去兩年中展示了許多在視頻里看起來令人驚嘆的機(jī)器人 Demo，但我們需要對這些 Demo 究竟展示了什么保持坦誠。幾乎所有 Demo 都局限在受到嚴(yán)格限制的實(shí)驗(yàn)室環(huán)境中，物體種類單一，任務(wù)周期很短。沒有一個(gè)模型在現(xiàn)實(shí)世界部署所需的復(fù)雜性、可變性或持續(xù)時(shí)間上得到過驗(yàn)證。一個(gè)酷炫的展示短片與一個(gè)能在廚房、倉庫或手術(shù)室里可靠工作的機(jī)器人之間，依然存在著巨大的鴻溝。盡管如此，商業(yè)賭注是巨大的。一波資金雄厚的新玩家正競相交付通用規(guī)劃系統(tǒng)，而最大的基礎(chǔ)設(shè)施巨頭則在將規(guī)劃能力置于更廣泛的模擬堆棧之上。一個(gè)能規(guī)劃的機(jī)器人就是一個(gè)能工作的機(jī)器人，整個(gè)行業(yè)都在競相成為第一個(gè)到達(dá)終點(diǎn)的人。

而模擬器（Simulation）則是連接這兩者的橋梁。如果說語言是世界的抽象，像素是世界的投射，那么幾何、物理和動(dòng)力學(xué)就是世界本身。模擬器必須在這個(gè)層面上工作：它是結(jié)構(gòu)性的骨骼，視覺外觀（用于渲染器）和行動(dòng)后果（用于規(guī)劃器）都可以從中衍生出來。

一個(gè)精通模擬的模型，可以將其理解轉(zhuǎn)化為供人類消費(fèi)的像素，以及供實(shí)體智能體使用的行動(dòng)預(yù)測。而一個(gè)僅僅精通渲染或僅僅精通規(guī)劃的模型，則無法做到這一點(diǎn)。其商業(yè)版圖是巨大的。僅 NVIDIA 的 Omniverse 針對的就是該公司估計(jì)在工廠、倉庫、供應(yīng)鏈和數(shù)字孿生中超過一萬億美元的潛在市場。機(jī)器人訓(xùn)練、自動(dòng)駕駛汽車測試、建筑可視化、工程設(shè)計(jì)和藥物研發(fā)，都依賴于某種“模擬形態(tài)”的東西。

該領(lǐng)域最困難的開放性問題也存在于此。

帶有顯式幾何、材料屬性和物理標(biāo)注的三維數(shù)據(jù)，其數(shù)量比渲染器訓(xùn)練所依賴的互聯(lián)網(wǎng)視頻要少幾個(gè)數(shù)量級(jí)。

“Sim-to-Real”（模擬到現(xiàn)實(shí)）的差距（即物體在模擬中的行為與在現(xiàn)實(shí)中行為的差異）依然存在。

生成式模擬器引入了新的風(fēng)險(xiǎn)：AI 生成的幾何體可能看起來正確，但包含自交或錯(cuò)誤的比例，從而產(chǎn)生荒謬的物理現(xiàn)象。

在大規(guī)模下進(jìn)行多物理場模擬（剛體、可變形物體、流體和布料相互作用）的成本，仍然比單領(lǐng)域模擬高出幾個(gè)數(shù)量級(jí)。

在 World Labs，Marble是我們進(jìn)軍這一領(lǐng)域的首次嘗試。它接收多模態(tài)提示詞（文本、圖像、視頻或空間草圖）并生成可交互探索的三維環(huán)境，同時(shí)輸出用于視覺探索的高斯?jié)姙R（Gaussian splats）以及物理引擎可以運(yùn)行的碰撞網(wǎng)格（collision meshes）。但隨著渲染、模擬和規(guī)劃之間的界限開始瓦解，Marble 僅僅是整個(gè)領(lǐng)域正在譜寫的宏大敘事的第一章。

邊界正在瓦解，未來走向何方

更多變革即將到來。目前該領(lǐng)域最重要的趨勢是這三個(gè)類別正開始融合。核心的共識(shí)在于：渲染世界、模擬世界和在世界中行動(dòng)所需要的知識(shí)，在很大程度上是相同的。延續(xù)前文的例子，一個(gè)真正理解杯子如何放在桌子上（其幾何形狀、材料屬性、對力的反應(yīng)等）的模型，應(yīng)該能夠從任何角度渲染該杯子，模擬杯子被推時(shí)發(fā)生的事情，并規(guī)劃出一只手去撿起杯子。這三個(gè)類別是一個(gè)相同底層理解的三種不同投射。

例如：來自不同機(jī)器人實(shí)驗(yàn)室的少量但涉及面漸廣的近期工作表明——至少在概念上——一個(gè)預(yù)訓(xùn)練的視頻渲染器可以被用作“世界與行動(dòng)聯(lián)合預(yù)測”的骨骼。這通過讓模型去“想象”將要發(fā)生什么以及該做什么，在渲染器和規(guī)劃器之間架起了一座橋梁。World Labs 的 Marble 已經(jīng)能夠從單個(gè)模型中同時(shí)輸出高斯?jié)姙R和碰撞網(wǎng)格，消解了渲染器和模擬器之間的邊界。每一個(gè)層級(jí)都在從“被動(dòng)輸出”轉(zhuǎn)變?yōu)椤敖换ナ较到y(tǒng)”：渲染器變得受行動(dòng)條件制約（action-conditioned），模擬器生成的世界上具有更強(qiáng)的可控性和可編輯性，規(guī)劃器也正在從單純的“做出反應(yīng)”轉(zhuǎn)變?yōu)椤斑M(jìn)行深思熟慮（deliberating）”。

其邏輯終點(diǎn)是一個(gè)統(tǒng)一的世界模型（unified world model）：一個(gè)既能渲染照片級(jí)真實(shí)視圖、又能產(chǎn)生物理精確結(jié)構(gòu)、還能規(guī)劃行動(dòng)序列的基礎(chǔ)模型（foundation model），并根據(jù)下游消費(fèi)者的需求在不同的輸出模態(tài)之間進(jìn)行切換。

我們?nèi)詫⒚媾R許多嚴(yán)峻的挑戰(zhàn)。數(shù)據(jù)情況依然不均衡：渲染器沉浸在海量的互聯(lián)網(wǎng)視頻中，而模擬器和規(guī)劃器則面臨著三維資產(chǎn)和機(jī)器人演示數(shù)據(jù)的極度短缺；追求視覺美感有時(shí)會(huì)犧牲機(jī)器人或高保真模擬所需的精確度。在單一架構(gòu)中調(diào)和這些沖突，是當(dāng)今世界模型研究中最核心的開放性問題，而這正是 World Labs 在繼續(xù)演進(jìn) Marble 過程中致力于解決的問題。

然而，方向已經(jīng)非常明確。整個(gè)領(lǐng)域自1980年代末以來一直在下同一個(gè)注——即一個(gè)足夠豐富的世界模型，就是一個(gè)智能體去觀察世界、建造世界和在世界中行動(dòng)所需要的一切——這個(gè)賭注正驅(qū)動(dòng)著整整一代的研究。讓這個(gè)“大賭注”充滿分量的是目前正在發(fā)生的融合：這三個(gè)在各自領(lǐng)域都已經(jīng)驅(qū)動(dòng)和塑造了數(shù)個(gè)百億美元規(guī)模產(chǎn)業(yè)、最初作為獨(dú)立研究項(xiàng)目起步的線索，現(xiàn)在正開始像一個(gè)整體一樣運(yùn)轉(zhuǎn)。

當(dāng)它們之間的邊界徹底瓦解，它們將共同重塑一件更宏大的事情：機(jī)器智能與其所處的物理世界之間的關(guān)系——這就是空間智能的漫長史詩。

語言賦予了機(jī)器談?wù)撨@個(gè)世界的方法。而世界模型，則是機(jī)器最終得以理解、想象、推理并與這個(gè)世界進(jìn)行交互的方式。

閱讀最新前沿科技趨勢報(bào)告，請?jiān)L問21世紀(jì)關(guān)鍵技術(shù)研究院的“未來知識(shí)庫”

未來知識(shí)庫是 “21世紀(jì)關(guān)鍵技術(shù)研究院”建立的在線知識(shí)庫平臺(tái)，收藏的資料范圍包括人工智能、腦科學(xué)、互聯(lián)網(wǎng)、超級(jí)智能，數(shù)智大腦、能源、軍事、經(jīng)濟(jì)、人類風(fēng)險(xiǎn)等等領(lǐng)域的前沿進(jìn)展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進(jìn)入。

截止到2月28日 ”未來知識(shí)庫”精選的百部前沿科技趨勢報(bào)告

（加入未來知識(shí)庫，全部資料免費(fèi)閱讀和下載）

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.