![]()
來源:The AI Frontier
這是斯坦福大學(xué)教授李飛飛(Fei-Fei Li)以及 World Labs 團(tuán)隊(duì)最新撰寫的重磅文章。文章針對當(dāng)前 AI 領(lǐng)域最火熱、但概念也最模糊的詞匯之一——“世界模型”(World Model),提供了一個(gè)清晰的、基于功能分類的“分類學(xué)”(Taxonomy)。
![]()
以下是該文章的全文中文翻譯:
“世界是一切發(fā)生的事情。”
—— 路德維希·維特根斯坦,《邏輯哲學(xué)論》,1921年
世界并非由文字組成。
在之前的一篇文章中,我們曾提出:空間智能(Spatial Intelligence)是 AI 的下一個(gè)前沿,而世界模型則是通往這一前沿的必由之路。在這里,我和 World Labs 團(tuán)隊(duì)希望更進(jìn)一步地探討:在當(dāng)前各種被構(gòu)建并被稱為“世界模型”的事物中,究竟是哪些“功能模塊”真正組成了這種能力?而每一個(gè)模塊又是用來做什么的?
語言模型賦予了機(jī)器對概念、詞匯和推理的非凡掌控力,但物理世界(無論是虛擬的還是現(xiàn)實(shí)的)運(yùn)行在完全不同的底層(substrate)上。語言模型學(xué)習(xí)的是文本的統(tǒng)計(jì)結(jié)構(gòu),而世界模型學(xué)習(xí)的則是空間和時(shí)間的統(tǒng)計(jì)結(jié)構(gòu):光線如何落在表面上、一個(gè)花園從從未被相機(jī)捕捉過的角度看過去是怎樣的、物體如何對力做出反應(yīng)并遵循物理定律。
這使得“世界模型”成為當(dāng)今 AI 領(lǐng)域最重要、但也最被濫用的術(shù)語之一。計(jì)算機(jī)視覺、機(jī)器人技術(shù)、強(qiáng)化學(xué)習(xí)和生成式 AI 都在聲稱自己正在構(gòu)建世界模型,但各自所指的含義卻大相徑庭。一個(gè)能生成絢麗但物理上不可能存在的火焰的視頻模型、一個(gè)能即興創(chuàng)作可玩游戲的語言模型、以及一個(gè)能忠實(shí)模擬燃燒的物理引擎,都在使用這同一個(gè)名字。
古希臘人永遠(yuǎn)無法在世界是由什么組成的問題上達(dá)成一致——究竟是火、水,還是不可分割的原子?因?yàn)椤笆澜纭睆膩矶疾皇且粋€(gè)單一的東西,它總是某個(gè)思想家需要用來進(jìn)行推理的“總體(totality)”的代名詞。如今,AI 領(lǐng)域也繼承了同樣的困境,而這恰恰發(fā)生在整個(gè)行業(yè)急需“精準(zhǔn)定義”的時(shí)刻。
分類學(xué)底層的閉環(huán)
要理清這些混亂,需要從一個(gè)比文中所涉及的任何技術(shù)都要古老的圖表開始。幾十年來,包括 Sutton 和 Barto 的經(jīng)典教材在內(nèi)的強(qiáng)化學(xué)習(xí)教科書,一直使用同一個(gè)圖表來描述智能體(agent)如何與世界進(jìn)行交互。這個(gè)圖表的正式名稱是部分可觀測馬爾可夫決策過程(POMDP),而“世界模型”這個(gè)詞最初的定義正是源于這一傳統(tǒng)。
一個(gè)智能體(可以是一個(gè)人、一個(gè)機(jī)器人或一個(gè)軟件系統(tǒng))采取行動(dòng)(Actions)。這些行動(dòng)會(huì)影響世界的狀態(tài)(State)。智能體永遠(yuǎn)無法直接看到狀態(tài)。到達(dá)智能體的是觀測(Observations):落在視網(wǎng)膜上的光子、傳感器的讀數(shù)、視頻幀中的像素。新的觀測指導(dǎo)新的行動(dòng),如此循環(huán)往復(fù)。
“狀態(tài)”這個(gè)詞需要詳細(xì)拆解,因?yàn)樗暮x因領(lǐng)域而異。這不是化學(xué)家所說的“狀態(tài)”(固體、液體和氣體之間的區(qū)別),而是物理學(xué)家和機(jī)器人學(xué)家所說的“狀態(tài)”:在給定時(shí)刻對世界上所發(fā)生事情的完整描述,包括每一個(gè)物體、每一個(gè)位置、每一個(gè)速度和每一個(gè)屬性。狀態(tài)是世界的底層現(xiàn)實(shí);在原理上它是完整的,但對于身處其中的任何智能體來說,它都是不可直接完全可見的。觀測是智能體對該現(xiàn)實(shí)的局部視圖,而行動(dòng)則是智能體做出的響應(yīng)。
這個(gè)閉環(huán)——從智能體到行動(dòng),到狀態(tài),到觀測,再返回——構(gòu)成了現(xiàn)代術(shù)語“世界模型”的技術(shù)含義。這個(gè)詞本身歷史更悠久,可以追溯到肯尼斯·克雷克(Kenneth Craik)在1943年提出的理論,即大腦通過運(yùn)行現(xiàn)實(shí)的“小規(guī)模模型”來做出推理,并在1980年代末和1990年代初被引入到神經(jīng)網(wǎng)絡(luò)中。這個(gè)閉環(huán)也解釋了今天人們使用這個(gè)詞的真正含義:目前所有被稱為世界模型的東西,實(shí)際上都是這個(gè)相同閉環(huán)的不同投射(projections)。每一種模型都輸出這個(gè)閉環(huán)中的不同部分。
世界模型的三大功能
1. 渲染器(Renderer)
第一種世界模型是渲染器。渲染器輸出供人類眼睛觀看的像素形式的觀測(Observations),其最核心的指標(biāo)是視覺保真度(visual fidelity)。一個(gè)將文本提示詞轉(zhuǎn)化為電影級(jí)無人機(jī)航拍鏡頭的視頻模型就是渲染器。像谷歌的 Genie 3,或者 World Labs 自研的 RTFM 這樣的交互式系統(tǒng)也是渲染器,這些模型能夠根據(jù)用戶的輸入實(shí)時(shí)生成幀。
然而,這種模型并不包含對三維結(jié)構(gòu)的顯式理解。它產(chǎn)生的是觀眾“會(huì)看到什么”,而不是“存在什么”。航拍鏡頭中的建筑從上方看可能天衣無縫,但如果你試圖駕車穿過下方的城市,它們就會(huì)分崩離析。
2. 模擬器(Simulator)
第二種是模擬器。模擬器輸出的是狀態(tài)(State):一個(gè)在幾何、物理或動(dòng)力學(xué)上忠實(shí)的世界表征,人類和計(jì)算機(jī)程序都可以對其進(jìn)行計(jì)算和交互。渲染器的契約純粹是視覺上的,而模擬器的契約則是結(jié)構(gòu)性的——它要求幾何圖形經(jīng)得起推敲、物理學(xué)遵循牛頓定律、動(dòng)力學(xué)行為符合物理定律下的應(yīng)有表現(xiàn)。
模擬器同時(shí)為兩類“消費(fèi)者”服務(wù):
人類專業(yè)人士(如建筑師、設(shè)計(jì)師、電影制作人和游戲開發(fā)者)需要超越單純“視覺合理性”的準(zhǔn)確性。
計(jì)算機(jī)程序(如強(qiáng)化學(xué)習(xí)智能體、機(jī)器人控制器和自動(dòng)駕駛汽車)將模擬器作為訓(xùn)練場,使其能夠大規(guī)模地與世界交互,測試在現(xiàn)實(shí)中執(zhí)行起來過于危險(xiǎn)、昂貴或不可能實(shí)現(xiàn)的場景。
3. 規(guī)劃器(Planner)
第三種是規(guī)劃器。規(guī)劃器輸出的是行動(dòng)(Actions)。給定一個(gè)觀測和一個(gè)目標(biāo),規(guī)劃器要回答的是智能體下一步應(yīng)該做什么。這在許多方面是渲染器的逆過程。渲染器輸入行動(dòng)并產(chǎn)生觀測,而規(guī)劃器則是輸入觀測并產(chǎn)生行動(dòng),從而閉合了“感知-行動(dòng)”的循環(huán)。
視覺-語言-行動(dòng)模型(VLA)、基于模型的系統(tǒng)(model-based systems)以及新一波的“世界行動(dòng)模型”(World Action Models),都是構(gòu)建規(guī)劃器的嘗試:這些系統(tǒng)旨在決定機(jī)器人在非結(jié)構(gòu)化世界中應(yīng)該做什么。
這三個(gè)類別涵蓋了目前市面上正在交付的大部分產(chǎn)品,且這種區(qū)分在實(shí)踐中非常實(shí)用。然而,這些類別在根本上并不是割裂的。支撐所有這些模型底層的,是關(guān)于世界如何運(yùn)行(幾何、物理、動(dòng)力學(xué))的同一種底層知識(shí)。理論上,一個(gè)能夠從任何角度渲染杯子的模型,也應(yīng)該能夠模擬杯子被推時(shí)會(huì)發(fā)生什么,并規(guī)劃一只手去把它撿起來。越來越多最前沿的研究正在有意模糊這三者之間的界限。
![]()
為什么模擬仿真器是核心支柱
在這三個(gè)類別中,模擬器(Simulator)獲得的大眾關(guān)注最少,但它的重要性卻最為深遠(yuǎn)。本文正是為了解決這種不對稱性。
渲染器是目前商業(yè)上最成熟的。許多圖像或文本轉(zhuǎn)視頻的產(chǎn)品正在消費(fèi)級(jí)和企業(yè)級(jí)市場快速擴(kuò)張。谷歌的 Nano Banana 模型已經(jīng)讓可能數(shù)以億計(jì)的用戶體驗(yàn)到了渲染器級(jí)別的圖像生成。技術(shù)是真實(shí)的,市場也是真實(shí)的。然而,渲染器優(yōu)化的是“視覺合理性”而非“物理準(zhǔn)確性”,這一天花板至關(guān)重要。它們的輸出很美,但你無法信任它們?nèi)ピO(shè)計(jì)一棟建筑或訓(xùn)練一個(gè)機(jī)器人。
規(guī)劃器是最具吸引力也是最年輕的,它與快速發(fā)展的機(jī)器人學(xué)習(xí)領(lǐng)域緊密相連。該領(lǐng)域在過去兩年中展示了許多在視頻里看起來令人驚嘆的機(jī)器人 Demo,但我們需要對這些 Demo 究竟展示了什么保持坦誠。幾乎所有 Demo 都局限在受到嚴(yán)格限制的實(shí)驗(yàn)室環(huán)境中,物體種類單一,任務(wù)周期很短。沒有一個(gè)模型在現(xiàn)實(shí)世界部署所需的復(fù)雜性、可變性或持續(xù)時(shí)間上得到過驗(yàn)證。一個(gè)酷炫的展示短片與一個(gè)能在廚房、倉庫或手術(shù)室里可靠工作的機(jī)器人之間,依然存在著巨大的鴻溝。盡管如此,商業(yè)賭注是巨大的。一波資金雄厚的新玩家正競相交付通用規(guī)劃系統(tǒng),而最大的基礎(chǔ)設(shè)施巨頭則在將規(guī)劃能力置于更廣泛的模擬堆棧之上。一個(gè)能規(guī)劃的機(jī)器人就是一個(gè)能工作的機(jī)器人,整個(gè)行業(yè)都在競相成為第一個(gè)到達(dá)終點(diǎn)的人。
而模擬器(Simulation)則是連接這兩者的橋梁。如果說語言是世界的抽象,像素是世界的投射,那么幾何、物理和動(dòng)力學(xué)就是世界本身。模擬器必須在這個(gè)層面上工作:它是結(jié)構(gòu)性的骨骼,視覺外觀(用于渲染器)和行動(dòng)后果(用于規(guī)劃器)都可以從中衍生出來。
一個(gè)精通模擬的模型,可以將其理解轉(zhuǎn)化為供人類消費(fèi)的像素,以及供實(shí)體智能體使用的行動(dòng)預(yù)測。而一個(gè)僅僅精通渲染或僅僅精通規(guī)劃的模型,則無法做到這一點(diǎn)。其商業(yè)版圖是巨大的。僅 NVIDIA 的 Omniverse 針對的就是該公司估計(jì)在工廠、倉庫、供應(yīng)鏈和數(shù)字孿生中超過一萬億美元的潛在市場。機(jī)器人訓(xùn)練、自動(dòng)駕駛汽車測試、建筑可視化、工程設(shè)計(jì)和藥物研發(fā),都依賴于某種“模擬形態(tài)”的東西。
該領(lǐng)域最困難的開放性問題也存在于此。
帶有顯式幾何、材料屬性和物理標(biāo)注的三維數(shù)據(jù),其數(shù)量比渲染器訓(xùn)練所依賴的互聯(lián)網(wǎng)視頻要少幾個(gè)數(shù)量級(jí)。
“Sim-to-Real”(模擬到現(xiàn)實(shí))的差距(即物體在模擬中的行為與在現(xiàn)實(shí)中行為的差異)依然存在。
生成式模擬器引入了新的風(fēng)險(xiǎn):AI 生成的幾何體可能看起來正確,但包含自交或錯(cuò)誤的比例,從而產(chǎn)生荒謬的物理現(xiàn)象。
在大規(guī)模下進(jìn)行多物理場模擬(剛體、可變形物體、流體和布料相互作用)的成本,仍然比單領(lǐng)域模擬高出幾個(gè)數(shù)量級(jí)。
在 World Labs,Marble是我們進(jìn)軍這一領(lǐng)域的首次嘗試。它接收多模態(tài)提示詞(文本、圖像、視頻或空間草圖)并生成可交互探索的三維環(huán)境,同時(shí)輸出用于視覺探索的高斯?jié)姙R(Gaussian splats)以及物理引擎可以運(yùn)行的碰撞網(wǎng)格(collision meshes)。但隨著渲染、模擬和規(guī)劃之間的界限開始瓦解,Marble 僅僅是整個(gè)領(lǐng)域正在譜寫的宏大敘事的第一章。
邊界正在瓦解,未來走向何方
更多變革即將到來。目前該領(lǐng)域最重要的趨勢是這三個(gè)類別正開始融合。核心的共識(shí)在于:渲染世界、模擬世界和在世界中行動(dòng)所需要的知識(shí),在很大程度上是相同的。延續(xù)前文的例子,一個(gè)真正理解杯子如何放在桌子上(其幾何形狀、材料屬性、對力的反應(yīng)等)的模型,應(yīng)該能夠從任何角度渲染該杯子,模擬杯子被推時(shí)發(fā)生的事情,并規(guī)劃出一只手去撿起杯子。這三個(gè)類別是一個(gè)相同底層理解的三種不同投射。
例如:來自不同機(jī)器人實(shí)驗(yàn)室的少量但涉及面漸廣的近期工作表明——至少在概念上——一個(gè)預(yù)訓(xùn)練的視頻渲染器可以被用作“世界與行動(dòng)聯(lián)合預(yù)測”的骨骼。這通過讓模型去“想象”將要發(fā)生什么以及該做什么,在渲染器和規(guī)劃器之間架起了一座橋梁。World Labs 的 Marble 已經(jīng)能夠從單個(gè)模型中同時(shí)輸出高斯?jié)姙R和碰撞網(wǎng)格,消解了渲染器和模擬器之間的邊界。每一個(gè)層級(jí)都在從“被動(dòng)輸出”轉(zhuǎn)變?yōu)椤敖换ナ较到y(tǒng)”:渲染器變得受行動(dòng)條件制約(action-conditioned),模擬器生成的世界上具有更強(qiáng)的可控性和可編輯性,規(guī)劃器也正在從單純的“做出反應(yīng)”轉(zhuǎn)變?yōu)椤斑M(jìn)行深思熟慮(deliberating)”。
其邏輯終點(diǎn)是一個(gè)統(tǒng)一的世界模型(unified world model):一個(gè)既能渲染照片級(jí)真實(shí)視圖、又能產(chǎn)生物理精確結(jié)構(gòu)、還能規(guī)劃行動(dòng)序列的基礎(chǔ)模型(foundation model),并根據(jù)下游消費(fèi)者的需求在不同的輸出模態(tài)之間進(jìn)行切換。
我們?nèi)詫⒚媾R許多嚴(yán)峻的挑戰(zhàn)。數(shù)據(jù)情況依然不均衡:渲染器沉浸在海量的互聯(lián)網(wǎng)視頻中,而模擬器和規(guī)劃器則面臨著三維資產(chǎn)和機(jī)器人演示數(shù)據(jù)的極度短缺;追求視覺美感有時(shí)會(huì)犧牲機(jī)器人或高保真模擬所需的精確度。在單一架構(gòu)中調(diào)和這些沖突,是當(dāng)今世界模型研究中最核心的開放性問題,而這正是 World Labs 在繼續(xù)演進(jìn) Marble 過程中致力于解決的問題。
![]()
然而,方向已經(jīng)非常明確。整個(gè)領(lǐng)域自1980年代末以來一直在下同一個(gè)注——即一個(gè)足夠豐富的世界模型,就是一個(gè)智能體去觀察世界、建造世界和在世界中行動(dòng)所需要的一切——這個(gè)賭注正驅(qū)動(dòng)著整整一代的研究。讓這個(gè)“大賭注”充滿分量的是目前正在發(fā)生的融合:這三個(gè)在各自領(lǐng)域都已經(jīng)驅(qū)動(dòng)和塑造了數(shù)個(gè)百億美元規(guī)模產(chǎn)業(yè)、最初作為獨(dú)立研究項(xiàng)目起步的線索,現(xiàn)在正開始像一個(gè)整體一樣運(yùn)轉(zhuǎn)。
當(dāng)它們之間的邊界徹底瓦解,它們將共同重塑一件更宏大的事情:機(jī)器智能與其所處的物理世界之間的關(guān)系——這就是空間智能的漫長史詩。
語言賦予了機(jī)器談?wù)撨@個(gè)世界的方法。而世界模型,則是機(jī)器最終得以理解、想象、推理并與這個(gè)世界進(jìn)行交互的方式。
閱讀最新前沿科技趨勢報(bào)告,請?jiān)L問21世紀(jì)關(guān)鍵技術(shù)研究院的“未來知識(shí)庫”
![]()
未來知識(shí)庫是 “21世紀(jì)關(guān)鍵技術(shù)研究院”建 立的在線知識(shí)庫平臺(tái),收藏的資料范圍包括人工智能、腦科學(xué)、互聯(lián)網(wǎng)、超級(jí)智能,數(shù)智大腦、能源、軍事、經(jīng)濟(jì)、人類風(fēng)險(xiǎn)等等領(lǐng)域的前沿進(jìn)展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進(jìn)入。
![]()
截止到2月28日 ”未來知識(shí)庫”精選的百部前沿科技趨勢報(bào)告
(加入未來知識(shí)庫,全部資料免費(fèi)閱讀和下載)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.