![]()
注:這是一篇舊文重發。
今年 3 月,科技博客 Not Boring 的作者 Packy McCormick 與 General Intuition CEO Pim De Witte 聯合發表了一篇近兩萬字的英文長文“World Models: Computing the Uncomputable”,系統梳理了世界模型的概念、歷史、技術路線與競爭格局。我們當時做了全文編譯,三個多月過去,這篇文章不但沒有過時,反而越發變成了理解當下局勢的必讀文章之一。
過去幾個月里,世界模型正在成為 AI 行業出現頻率最高的關鍵詞之一。無論是大模型公司、自動駕駛公司、機器人公司還是游戲公司,都開始在自己的敘事里加入“世界模型”。
AMI Labs、World Labs、Wayve、Physical Intelligence 等公司在上半年合計吸引了超過 40 億美元融資;就在上周,這篇博文的聯合作者 Pim De Witte 的 General Intuition 宣布完成 3.2 億美元 A 輪融資,估值 23 億美元,距離他們 1.337 億美元的種子輪僅過了三個月。幾乎每一筆錢都押注在同一個判斷上:未來的具身智能,要從世界模型中長出來。
![]()
圖丨全球世界模型領域主要融資(來源:DeepTech 制圖)
但熱錢涌入的同時,路線之爭也愈發激烈。潛在方法還是生成式方法?VLA 工程迭代能跑贏理論上更優的架構嗎?游戲數據和機器人數據哪個才是通往現實世界的最佳橋梁?推斷動作和 ground truth 動作之間的差距能被彌合嗎?這些問題在三個月前是開放的,今天依然是開放的,但已經有越來越多的實驗數據開始縮小可能性空間。
這正是我們決定重發這篇文章的原因。在世界模型這個領域,概念很多,噪聲也很多,但像這樣把歷史脈絡、技術細節和商業格局在一篇文章里講清楚的,目前仍然不多。對于想要系統理解世界模型是什么、為什么重要、以及各路玩家在賭什么的讀者來說,這仍然是最好的起點。
需要再次提前說明的是,Pim De Witte 和他的團隊對世界模型有自己的技術判斷和商業立場,讀者可以自行判斷哪些是客觀描述,哪些是立場表達。
![]()
“我昨晚本想睡覺,結果大腦開始胡思亂想,幻想第二天可能會遇到的各種場景,以及我又會如何應對。”
![]()
(來源:Not Boring)
這是一種很常見的體驗。作為人類,我們可以很輕松地想象各種事情:一座復雜的體育場、一段可能發生的浪漫關系,或者一場激烈的爭論。想象自己出現在下一場曼聯比賽現場,并不比想象自己和一位多年老友聊天更費力。可如果要模擬一場曼聯比賽,就意味著要模擬、建模成千上萬人的行為;以今天的傳統計算機和游戲引擎,這可能要花上數年時間。
想象一下,如果要寫代碼描述一場曼聯比賽,會是什么樣子:某個瞬間,一位球迷可能舉起一面隨機出現的自制旗幟。整座球場隨即開始唱起與它有關的歌。但并不是所有人都會唱。有人抱著孩子跳起來,有一對老夫婦卻安靜地坐著,心里想著這會不會是他們最后一次一起看球,沉默地感受著每一秒。
世界就是這樣一個地方:未來總是出人意料,卻又會以某種可預測的方式展開。對人類來說,想象這些場景所需的努力和時間大體相近,但計算機卻做不到這一點。
傳統計算在這種復雜性面前無能為力,這并不奇怪。試想一下,要預測并編寫每一個動作的代碼,以及所有這些動作之間的交互需要多大的工程量。從數學上說,在傳統引擎里模擬 N 個球迷,至少是一個 O(N) 或 O(N2) 的問題。每個人、每面旗幟、每把椅子、每個球都必須被顯式計算;更準確地說,它們之間的相互作用也都要被計算。
在機器人領域,機器必須在相同的時間內對現實世界的各種情況做出反應,無論這些情況有多復雜。但在傳統計算中,不同情況需要的模擬時間可能天差地別。這一直是機器人和具身 AI(embodied AI)進步的主要瓶頸。
世界模型就是這個問題的一種解法。
世界模型從視頻中學習預測這些動態,通常還會學習視頻中所發生的動作。它們將那些動態的、在計算上難以大規模模擬的情況,包括像足球比賽中這種隨機的、依賴動作的群體行為,壓縮成神經網絡里一次固定成本的運算。
在世界模型中,整個體育場作為一次固定成本的前向傳播(forward pass)被模擬出來。場景的復雜度不會讓“引擎”在推理時指數級地慢下來,因為世界的模式已經在訓練階段被吸收進了模型權重(weights)。
它是怎么做到的?靠動作。
動作是一種壓縮形式,可以用來預測正在展開的動態。它攜帶了在環境中推演未來狀態所需的信息,直到新的動作發生,為環境引入新的輸入。每一個動作都包含足夠的信息,讓模型預測接下來會發生什么,直到下一個動作再次更新畫面。
![]()
(來源:Not Boring)
這種以行動為條件(action-conditioned)的方法讓模型能夠交互式地學習和規劃。今天,即便是最好的模擬引擎也很難做到這一點,更不用說以可預測的計算成本做到。動作讓模型能像我們一樣與世界交互。
日復一日,我們都在重復同一個過程:觀察,計算,決定做什么,然后行動,這就是生活。在任何一個時刻,你收集到的所有關于空間和時間的信息,最終都會壓縮成你采取的那個動作。
對計算機來說,動作是一條繞開高昂模擬成本的捷徑。如果人腦比最好的大語言模型高效得多,那么只要觀察人類如何回應環境中無數變量,我們幾乎就能免費獲得那些計算結果。這給了我們一種高效進行非確定性計算的方法,也讓我們能夠創造出傳統計算約束下本不該實現的模擬。
這種“計算不可計算之物”的能力,正是我們相信世界模型會以當前模型架構無法做到的方式推動具身 AI 進步的原因。
可以把模型想象成夢。
你有沒有做過這樣一種夢:你只是站在那里,看著事情發生,卻無法介入?那就是視頻模型。
真實世界不一樣。它會回應你的行動,或者回應你發出的指令,并預測由此可能發生的一整組結果,而不只是生成最可能、或最有戲劇性的下一幀。
你有沒有做過清醒夢(lucid dream)?在夢里,你知道自己身處大腦生成的夢境,并且能夠改變故事的走向。那就是世界模型。
更規范地說,標準視頻模型基于概率預測下一幀,P(x_{t+1} | x_t),而世界模型基于干預(intervention)預測下一個狀態,P(s_{t+1} | s_t, a_t)。
那個 a_t(t 時刻的動作)就是魔法所在。
![]()
(來源:Not Boring)
在 General Intuition,我們相信,世界模型是一類新的基礎模型;對于那些需要深度空間和時間推理的環境,它們可能比大語言模型更強大,我們也已經看到了一些早期跡象。這樣的環境,正包括我們所處的真實世界。
世界模型從觀察世界,以及觀察世界中發生的動作中學習。它們是一種根本不同的新型基礎模型,能夠計算過去無法計算的東西。
它們的重要性將遠超當前任何人的認知,因為它們提供了一條僅靠語言和代碼無法達到的通往通用智能的路徑。畢竟,所謂人類的一生,就是不斷根據自己的經歷、觀察和學習去采取行動。
先停一下,你可能會對“世界模型提供了一條 LLM 無法走通的通往通用智能的路徑”這個說法感到困惑,這可以理解。
最近,世界模型獲得了越來越多關注。Yann LeCun 一直懷疑大語言模型是否真能通向通用智能,而他剛剛宣布為 AMI 融資 10.3 億美元。李飛飛創辦的 World Labs 也已經融資超過 10 億美元,目標同樣是世界模型。Google DeepMind 幾乎擁有科技行業最接近“無限印鈔機”(互聯網廣告)的資源,也在押注世界模型。但到目前為止,這些投入呈現給外界的,主要還是很酷的視頻和 3D 世界。
大模型能引用莎士比亞,也可以解決 Erd?s 問題(譯注:Erd?s 問題是指著名匈牙利數學家保羅·埃爾德什提出的數百個數學難題和猜想,主要集中在數論、組合數學、圖論和幾何等領域)。相比之下,世界模型看起來仍然更像是通往元宇宙的路徑,而不是通往通用智能的路徑。
不過,世界模型之所以還沒有大語言模型那樣的熱度,部分原因在于,它們的定義仍然模糊。
什么是世界模型?前面我們已經說過,視頻模型不算。3D 空間模型也不算。話雖如此,二者都可能是通往世界模型的路徑。今天驅動機器人的那些模型算不算世界模型?嚴格說不完全算,雖然其中有些可以算;即便那些不算的,也和世界模型架構共享一些特征。
和往常一樣,炒作只會讓概念更混亂。AMI Labs 的 CEO Alexandre LeBrun 對 TechCrunch 說:“我預測‘世界模型’將成為下一個流行詞。六個月后,每家公司都會自稱世界模型公司,好去融資。”(譯注:如今來看,似乎確實如此)
但炒作只是一小部分。所有在這個領域構建產品和模型的人都相信:世界模型是控制物理世界中機器的路徑。路徑的具體形態可能有差異,但所有人都相信未來要從世界模型中走過。
NVIDIA 機器人業務負責人、杰出科學家 Jim Fan 最近說:“……很少有人真正理解這場轉變會有多深遠……遺憾的是,世界模型現在最被炒作的用途,是 AI 視頻垃圾內容;接下來大概還會有游戲垃圾內容。但我非常確信,2026 年會是大型世界模型為機器人,以及更廣泛的多模態 AI 奠定真正基礎的第一年。”
今天這篇文章試圖做的,就是把這場變化講清楚:世界模型從哪里來,今天發展到什么階段,各大實驗室分別在押注哪些技術路線,以及 General Intuition 為什么選擇自己的方向。
如果說過去幾年 AI 的主線是語言模型,那么世界模型代表的是另一條正在成形的路徑:讓機器不僅能理解文字和圖像,還能理解行動、環境和后果之間的關系。沿著這條線索往下看,問題會變得越來越根本:我們如何定義“現實”?機器能否在一個足夠逼真的模擬世界中學習,并把學到的能力遷移到真實世界?
甚至還可以進一步追問:如果一個 Agent 可以在世界模型中學習、行動并形成對環境的理解,我們又如何確定,自己不是某個更大模型中的一部分?
Agent 能在自己的夢中學習嗎?
世界模型不算個新概念,它很古老,甚至可以說,是人類最早提出的一批問題之一。
從人類開始思考自己在宇宙中的位置、追問“我們為什么在這里”起,我們就在反復想象一種可能:我們所處的現實,會不會只是一個模擬?
公元前 380 年,柏拉圖通過蘇格拉底提出了“洞穴寓言”(譯者注:出自《理想國》第七卷)。想象一些人類住在地下的洞穴里,脖子被鎖鏈鎖住,被迫盯著墻上的影子看。這些人會相信那些影子就是現實本身,而實際上它們只是現實的影子。柏拉圖暗示,我們都困在洞穴里,脖子被鎖著,把我們的感知誤當成了真正的現實。
大約八十年后,中國道家哲學家莊周在“蝴蝶夢”中思考了類似的問題:從前莊周夢到自己變成了一只蝴蝶,翩翩起舞,自得其樂,不知道自己是莊周。突然醒來,分明是莊周。但他不知道,是莊周夢到自己變成了蝴蝶,還是蝴蝶夢到自己變成了莊周。(譯者注:出自《莊子·齊物論》,原文:“昔者莊周夢為胡蝶,栩栩然胡蝶也,自喻適志與,不知周也。俄然覺,則蘧蘧然周也。不知周之夢為胡蝶與,胡蝶之夢為周與?周與胡蝶,則必有分矣。此之謂物化。”)
幾個世紀過去,隨著技術能力的進化,科幻作家也加入了這條追問現實本質的思想脈絡。Frederik Pohl 在 1955 年寫了《世界地下的隧道》,Daniel F. Galouye 寫了《模擬三號》(Simulacron-3),Stanislaw Lem 寫了《非我仆》(Non Serviam),William Gibson 寫了《神經漫游者》(Neuromancer),Neal Stephenson 寫了《雪崩》(Snow Crash)。所有這些作品都用文字描繪了模擬世界。
1977 年,科幻大師 Philip K. Dick 在法國梅斯的一次演講中自信地告訴聽眾:“我們生活在一個由計算機編程的現實中,唯一能讓我們察覺這一點的線索,是某個變量被改變,我們的現實隨之發生某種變化。”
大多數人對“模擬”的第一次接觸可能是《黑客帝國》(The Matrix)。在原始劇本中,沃卓斯基姐妹設想的矩陣,是一個由人類大腦共同生成的模擬世界。那些大腦被連接在一起,形成了一個神經網絡。
制片方覺得,“人類就是計算機”這個概念對大眾來說太難理解了,于是做了一個熱力學上有問題、但商業上更容易接受的改動:把人類變成了為模擬提供動力的電池。
從商業結果看,這個決定大概是對的。黑客帝國系列全球票房接近 20 億美元。更重要的是,它向大眾引入了一個概念:一個與“真實”世界無法區分的模擬世界。
這個想法會抓住我們的集體想象力,并不奇怪。它足夠詭異,又詭異得剛剛好,而且出乎意料地難以證偽。
如果觀察是一樣的,動作是一樣的,那么計算就是一樣的。如果你看到的是一樣的,做的也是一樣的,那么你是在模擬中還是在現實中并不重要。你的大腦對兩者的處理方式完全相同。Neo 在 Morpheus 喚醒他之前完全不知道自己在矩陣里。
2010年,克里斯托弗·諾蘭拍出了《盜夢空間》(Inception)(原文注:有一個意思的事是:在 Google DeepMind 的世界模型 Genie 內部負責智能體開發的團隊,其名稱就叫作 Inception)。他并不回避觀眾的困惑,甚至像是在享受這種困惑。
夢中有夢,夢里還有夢。諾蘭的核心設定是:夢是一個可控空間。人們可以從夢中提取信息,更重要的是,也可以把信息植入夢中。
但這一切都只是科幻,對吧?
1990 年,還在慕尼黑工業大學工作的年輕研究者 Jürgen Schmidhuber(LSTM 之父)發表了《讓世界可微分》(Making the World Differentiable)。這篇論文提出構建一個循環神經網絡(RNN),賦予它兩個任務:第一,學習預測模擬世界中接下來會發生什么;第二,用這個模擬世界來訓練一個 Agent 在其中行動。
![]()
(來源:Not Boring)
這個 Agent 完全不需要與“真實”環境交互。它可以在模型內部學習,也就是在夢中學習。
第二年,因“苦澀的教訓”(Bitter Lesson)聞名的 Richard Sutton 也構想了一個類似的想法。在《Dyna: 一個整合學習、規劃和反應的架構》中,他主張學習、規劃和反應不應該是分離的系統,而應該統一在一個單一架構中。這意味著,從技術上說,我們可以構建一個世界的模型、在其中練習、然后將學到的東西遷移回現實。
兩篇論文都極具遠見,它們對后來的研究產生了持久影響,研究者當年的設想如今也逐漸開始變成現實。但在當時,兩篇論文幾乎和科幻沒有什么差別。
1990 年,全世界擁有的計算能力大約是今天的百萬億分之一到千萬億分之一。當時全球可能只有 10 到 100 個 gigaFLOPS 的總容量。到了 2024 年,僅這一年市場上就售出了數十 zettaFLOPS(10^22 FLOPS)的計算能力。1990 年,全球數字數據大約是 10 PB,這個體積小到連我們現在一次訓練所用視頻數據的 0.005% 都裝不下。到 2026 年,這個體積已經爆炸式增長了 2,200 萬倍,達到 221 ZB。
但技術在進步,最強大的夢不會輕易消失。
近三十年后,2018 年 3 月,David Ha(當時在 Google Brain)和Schmidhuber 發表了題為《世界模型》(World Models)的論文。這篇論文提出了一個問題:Agent 能在自己的夢中學習嗎?
![]()
(來源:arXiv)
為了回答這個問題,Ha 和施密德胡伯構建了一個有三個組件的系統:一個視覺模型(V)將原始像素觀察壓縮成緊湊表示,一個記憶模型(M)即循環神經網絡學習預測接下來會發生什么,以及一個微小的控制器(C)僅基于 V 和 M 的輸出來決定做什么。
世界模型就是 V + M:它可以接收觀察并想象合理的未來。控制器就是 Agent 或者說策略(policy),負責選擇采取哪些動作。
![]()
圖丨世界模型 + 智能體(來源:arXiv)
Ha 和 Schmidhuber 在一個賽車游戲和一個第一人稱射擊游戲的觀察數據上訓練了他們的世界模型。世界模型生成了新的數字世界。然后他們讓 Agent 完全在世界模型幻想出的夢境中練習。之后,他們將學到的策略遷移回實際環境。
它成功了。Agent 能夠解決在現實中從未遇到過的任務。夢境足夠真實。
從計算機科學的角度看,這確實讓人震撼。但真的那么出人意料嗎?這不就是人類導航世界的方式嗎?
Ha 和 Schmidhuber 指出,人類不斷在腦中運行世界模型。一個面對 100 英里時速快球的棒球擊球手,必須在球的位置的視覺信號到達大腦之前就決定如何揮棒。每次擊球不全是三振出局的原因,是擊球手并非對現實做出反應,而是對大腦“內部世界模型”關于球將在哪里的預測做出反應。
加州大學爾灣分校認知科學教授 Donald Hoffman 把這個想法推得更遠。他認為,我們每個人都像戴著一副“現實頭顯”,把量子世界令人眩暈的復雜性,簡化成一個對用戶友好的界面。現實太豐富了,所以我們只能通過某種持續的清醒夢來穿行其中。
這個問題可以一直往下追問,想挖多深都可以。但一路挖到底,還是世界模型。
Ha 和 Schmidhuber 表明,計算機或許能夠像人類一樣對待世界:創建模擬以根據行動預測未來狀態,基于這些預測采取行動,然后更新并循環往復。
關鍵是行動,而非言語。
語言是不夠的(代碼也是)
我們來玩一個游戲,拍五下手。
你的雙手在空間中的位置是什么?它們彼此之間的相對位置如何變化?請精確到皮秒。接觸點在哪里?聲音是什么樣的?兩只手逐漸靠近、碰到一起、再分開時,各自是什么形狀?它們如何擠壓彼此?兩掌之間的空氣發生了什么?拍手時,你的視野里看到了什么?
別忘了你的手臂。它們是如何彎曲,才讓拍手這個動作發生的?這里也要精確到皮秒。你袖子上的布料有什么反應?背景里發生了什么?旁邊的人注意到你在拍手了嗎?他作何反應?你會不會因為在會議中讀一篇本不該讀的文章,還照著里面的指示拍手而被解雇?描述一下你老板額頭上的那根青筋。它是不是跳起來了?
你做不到,對吧?好了,可以停了。意思已經很清楚了。
語言是對現實一種極度有損的壓縮。
語言當然重要,它是我們溝通和協調的方式。“你比我猜”這個游戲表明,要傳達想法,語言可以比動作高效得多。大語言模型在這件事上非常重要。但只有語言是不夠的。
那代碼呢?代碼是一種非常精確的語言,可以讓機器執行操作。我讓 Claude“寫一個雙手在真實環境中拍五次的模擬代碼”,生成出的結果“看起來非常痛苦”。
![]()
圖丨由 Claude 生成的拍手模擬(來源:Not Boring)
有一種信念認為,隨著規模擴大,語言和代碼將能夠解決所有時空智能(spatial-temporal intelligence)挑戰,產生通用人工智能(AGI)或超級人工智能(ASI)。也有人主張代碼是解決許多現實世界智能挑戰的關鍵,因為它可以精確地指令所有物理形態。
我們并不認同這種想法。基于代碼的模擬,只是一個很粗糙的夢。它被規則束縛,很難處理現實世界中隨機、混亂、不可預測的部分。
要了解世界,你必須與之交互。
赫爾曼·黑塞憑借小說《玻璃球游戲》獲得 1946 年諾貝爾文學獎。在這部小說里,讀者進入了一個叫卡斯塔利亞的未來知識烏托邦。那里崇尚純粹思想,核心是一種極其復雜的游戲,也就是書名里的“玻璃球游戲”。它試圖把人類所有知識綜合進一種統一的形式語言中。
玩家創作一局游戲,就像作曲家寫一首賦格。一步棋可能把巴赫的一首康塔塔、一個數學證明和孔子的一段文字聯系起來。這個游戲是抽象的極致:整個人類文化被壓縮成符號操作。
![]()
(來源:Not Boring)
主角約瑟夫·克內希特升到了“玻璃球游戲大師”,這是卡斯塔利亞的最高職位。但他逐漸感到幻滅。游戲雖然優美,但它是貧瘠的。卡斯塔利亞的知識分子退入抽象太深,已經失去了與世界的接觸。他們可以用極高雅的方式表征現實,卻無法在現實中行動。
克內希特最終決定離開卡斯塔利亞,去做一名普通的家庭教師。他選擇了那個混亂的、具身的、不可預測的世界,而非完美的符號世界。
他把一生獻給了這個游戲。掌握這個游戲,意味著在一種超越文字的抽象層次上運作,某種意義上,已經接近世界建模。但這仍然不夠。沒有與現實接觸,符號終究會枯竭。
大語言模型就是我們的卡斯塔利亞人。它們是符號的精湛操弄者,能在人類全部文本知識之間建立聯系。它們能討論物理學、作詩、寫代碼、解釋棒球規則。它們真的是人類歷史上最偉大的智力成就之一。
但它們完全運作在表征的領域。它們能描述拍手,但不能拍手。它們能談論重力,但不像一個幼兒那樣了解重力。幼兒通過成千上萬次跌倒和踉蹌,用身體學到了“向下”意味著什么。
語言模型把預測下一個 token 做到了極好。唯一的問題是,token 就像柏拉圖洞穴墻上的影子。你無法只靠代碼得到一個真實的體育場人群,也無法只靠描述抵達那個現場。
真實世界曾經是不可計算的,或者說,至少在過去是這樣。
如果語言和代碼這兩個人類最強大的發明都不足以表征我們的世界,我們還剩什么?
答案是世界模型。
世界模型為通向 AGI 提供了另一條路徑。它們讓我們有機會計算那些在今天看來仍然不可計算的東西。它們學習的,正是克內希特最后追尋的那種與現實的混亂接觸。
世界模型提供了一種高效進行非確定性計算的方法,也讓我們有可能運行那些在傳統計算約束下本不該實現的模擬。
世界模型不是大語言模型的替代品。語言依然必不可少。文本可以用來給世界模型設定條件,告訴它們要想象什么場景、追求什么目標,也可以為它們提供長期任務。思考和行動需要一起工作。但行動本身,必須來自文本之外。
約瑟夫·克內希特必須從卡斯塔利亞走下來。
真正的智能必須來自對世界的觀察,來自理解動作及其后果,來自語言只能指向的那些東西。
道可道,非常道。(譯注:出自《道德經》開篇,原文“道可道,非常道”。作者將其與后一句《圣經》引文并置,構成一組東西方哲學的呼應,語言能表達的終究有限,真正的智能不在文字之中。)
太初有言(In the beginning was the Word)。然后人類誕生,不完美地、不可預測地行動(譯注:“In the beginning was the Word”出自《圣經·約翰福音》1:1,原文為古希臘語“?ν ?ρχ? ?ν ? λ?γο?”,中文和合本譯為“太初有道”。但原文作者在這里刻意利用了“Word”一詞的雙關,它既是《圣經》中萬物之始的“道/圣言”,也是大語言模型所處理的“文字/語言”。作者的意思是:正如《圣經》敘事中“道”先于一切存在,在 AI 的發展敘事中,語言模型也先于世界模型出現;但正如人類隨后以不完美的行動進入世界,世界模型也隨之而來,將AI從純粹的語言推向行動。此處譯為“言”而非傳統的“道”,以保留這層含義)。
也許事情的發展邏輯就是這樣的:太初有大模型,然后世界模型誕生。
什么是世界模型?
世界模型模擬環境,并在你于其中行動時做出回應。
更準確地說,世界模型是一種交互式預測模型,它模擬的是時空環境,而這種模擬會隨著動作發生變化。
大模型預測句子中的下一個詞,世界模型預測下一個狀態(即當前狀態的即時未來),這個預測取決于當前狀態,也取決于控制輸入。
更簡潔地說:大模型學習語言的結構,世界模型學習因果的結構。
這是世界模型的一個簡單定義。它是準確的,但不足以理解世界模型如何工作。要理解這一點,你需要知道四件事:世界模型做什么、如何構建、為什么“動作”如此重要、以及世界模型和策略(policy)之間的關系。
想象一下接球時發生了什么。
你的眼睛接收一個場景:投球者的手臂、飛行中的球、風、刺眼的陽光,所有這些。面對這股感官數據洪流,你的大腦會構建一個壓縮模型,理解正在發生什么;更關鍵的是,它還會預測接下來會發生什么。
世界模型在計算上做同樣的事情。它接收觀察(通常是視頻幀,但也可以使用任何感官數據),構建環境狀態的壓縮內部表示,并預測該狀態在響應動作時將如何變化。
本質上,它是一個學出來的物理引擎。不同的是,它不依賴人類手寫的方程。它不是從第一性原理出發計算重力、碰撞和摩擦,而是看過數十億次重力、碰撞和摩擦如何發生,然后從中學會模式。
這讓世界模型成為構建 Agent 的重要工具。這里的 Agent,指的是能夠在環境中行動的 AI 系統。世界模型主要從三個方面幫助 Agent。
第一,世界模型可以充當替代訓練場。Agent 可以在世界模型內部練習,也就是在夢里練習,再把學到的東西遷移回現實。這對安全很重要,因為有些事情不應該在真實世界中測試或訓練;對成本和數據效率也很重要,因為真實世界數據昂貴、難收集,而且往往不夠用。
第二,世界模型讓更長時間跨度的規劃成為可能。Agent 可以在真正行動之前,先“想象”不同動作可能帶來的后果,就像棋手提前想好幾步棋。區別在于,這里的棋盤可以是任何環境,也可以是真實世界。
第三,世界模型為 Agent 學習行為提供了更豐富的世界表征。一個在世界模型內部表征上訓練出來的 Agent,學到的不是如何處理原始像素,而是如何“看見”那些對行動真正重要的特征。
正因為這三點,世界模型最重要的承諾,是它可能提供一條通往泛化的路徑。
如果我們能創造出一類世界,讓它們像真實世界一樣回應動作,就可以用它們安全、低成本、高效率地訓練具身 Agent,讓它們最終能在各種虛擬世界,乃至真實世界中行動。
這里也有一個世界模型領域繞不開的核心問題:這些模擬環境是否足夠忠實于現實?我們能不能在模擬環境中訓練模型,再把這種訓練遷移到真實世界?換句話說,我們能不能“在模擬中預訓練”?
越來越多證據表明,答案可能是肯定的。
Allen Institute for AI(Ai2)最近發布了 MolmoBot,一個“完全在模擬中訓練的開源機器人模型套件”。 他們在介紹中說:“我們的結果表明,面向操作任務的模擬到現實零樣本遷移是可能的。”
參與該項目的普林斯頓教授和 Google DeepMind 研究者 Dhruv Shah 分享說:“在容易模擬的任務范圍內,一個純模擬訓練的策略優于在數千小時真實數據上訓練的最先進 VLA 模型!”
![]()
圖丨 MolmoBot(來源:arXiv)
這是一個相當驚人的發現。General Intuition 以及更廣泛的世界模型領域,接下來要做的一件大事,就是擴大“容易模擬的任務”的范圍。
整體流程大致是這樣:首先,世界模型想象出逼真的環境和未來狀態。理想情況下,這些環境會像它訓練時見過的真實世界和虛擬世界一樣,對動作或指令作出回應。然后,Agent 被放進這些生成出來的世界里訓練。最后,再把 Agent 帶回真實環境,測試它究竟學到了什么。
這正是 Ha 和 Schmidhuber 在 2018 年展示過的東西。直到今天,它仍然是這個領域最核心的承諾。
世界模型是如何構建的
世界模型相當年輕。到目前為止,還沒有哪一種單一方法,或哪幾種方法的組合,被證明明顯優于其他路線。這意味著,通用世界模型最終會采用什么架構,仍然是一個開放問題。
不過,訓練世界模型已經有了一些相對穩定的要素。
第一步是數據,而且是海量觀察數據。很多時候,觀察數據會和產生這些觀察的動作配對。這種配對可以有幾種來源。觀察數據通常是視頻,可以提前收集;動作要么在采集視頻時同步記錄下來,要么事后由另一個模型推斷出來。還有一種方式是讓模型自己行動,通過與環境直接交互,生成自己的觀察數據和動作數據。
如果訓練數據是觀察或視頻,那么原始視頻幀就記錄了一個環境如何隨時間展開。理想情況下,這些視頻會帶有動作標簽,也就是標出是什么動作導致了畫面中的變化。這些動作可以是同步記錄的,也可以由另一個 AI 模型推斷出來。
動作提供的是因果鏈接:某個人做了什么,環境因此發生了什么變化。
世界模型的核心目標始終不變:給定當前狀態,以及一個動作或指令,預測下一個狀態。它看到第 t 幀和動作 a,然后嘗試生成第 t+1 幀對應的狀態。
但如果每次都直接預測原始像素世界,成本會很高,很多時候也沒有必要。視頻幀中的大部分內容,在相鄰時刻之間并不會變化。墻還是那面墻,天空還是那片天空。幀里的許多細節也是冗余的,比如天空的顏色、墻面的紋理,都可以用更緊湊的形式描述。
所以,現代世界模型通常會引入潛空間(Latent Space):一種壓縮后的、由模型學習出來的表示,只保留最關鍵的信息。
視覺編碼器會把每一幀壓縮成一個緊湊向量,也可以理解為這個場景的數學指紋。模型學習的,不是如何根據動作預測 4K 畫面里的每一個像素,而是如何預測下一個“指紋”。計算效率正是從這里來的。
為了準確建模世界如何演變,世界模型還必須學會表示一整組可能結果。結果的不確定性,通常被稱為環境的隨機性(stochasticity)。
世界模型需要同時處理兩類不確定性:一類是它“還不知道”的東西,即認知不確定性(epistemic uncertainty)。例如,一個從未見過紅綠燈的模型,不會知道黃燈之后通常會變成紅燈。另一類是本來就無法完全預知的東西(譯注:即偶然不確定性,aleatoric uncertainty,比如擲骰子這樣的隨機事件。aleatoric 一詞就源自拉丁語 alea,意思是“骰子”)。
即便模型已經學到了關于某個環境行為的一切可學信息,把認知不確定性降到了最低,接下來會發生什么,通常仍然存在某種固有的不確定性,也就是偶然不確定性。這一點和純娛樂用途的視頻模型不同。后者只要能預測一種常見的世界狀態演化,就可能表現不錯。
如果用一種很直接的預測方法,比如用均方誤差(MSE)訓練一個樸素模型,讓它預測一輛車如何轉彎,模型可能會變得“模糊”。原因是,它會把所有可能結果平均起來。車可能轉彎后繼續留在左車道,也可能并入右車道。真正最小化誤差的軌跡,反而是一個不太可能發生的結果:車停在兩條車道中間。這就是“模糊”的來源。不同模型會用不同方式處理這個問題。
擴散模型通過逐步生成結果來避開這個問題。它可以讓模型從結果分布中鎖定某一種具體模式,采樣出一個清晰、合理的未來,而不是把所有可能性平均在一起。
自回歸模型也可以處理多模態問題,做法是為每個結果使用多個 token,并逐個采樣。這樣,后續 token 的預測會和前面的 token 保持一致。
JEPA 一類架構則選擇從根本上繞開這個問題。它基本不需要顯式建模整個結果分布,因為它根本不會把預測結果解碼回像素空間。它運行在一個“平均化”后果沒那么嚴重的空間里。畢竟,我們并不要求這類模型預測完整畫面,而是希望它們學到對下游任務有用的表征。
這個過程最終輸出什么,取決于你要構建什么。
如果你要做的是一個可視化的世界模擬器,也就是一個可以觀看、可以探索的東西,那么就需要通過視覺解碼器,把潛空間中的預測重新解碼成像素,生成關于可能未來的想象視頻。Google DeepMind 和 World Labs 的演示之所以看起來真實、令人印象深刻,靠的就是這類方法。
訓練世界模型的方法有很多。后面我們會通過這個領域短短 8 年的現代史,梳理這些方法如何出現、演化,并彼此借鑒。
現在只需要先記住這一點:輸入觀察數據,并配上導致這些觀察發生的動作,世界模型由此學習預測下一個狀態;而 Agent 則在這些世界中訓練,學習預測下一個動作。
為什么動作是終極壓縮形式
這是世界模型背后的一個關鍵洞察:動作是終極壓縮形式。
想象一下,你決定向左邁一步,避開地上的水坑。你的大腦會處理眼前的視覺場景:人行道、水坑、周圍的人、路緣、駛來的公交車。它會預測近未來會發生什么:水坑不會移動,公交車會開過去,身后的人會繼續往前走。它還會評估不同選項:向左邁一步,向右邁一步,跳過去,或者干脆接受鞋子被弄濕。最后,它選擇其中一個動作。
外部觀察者看不到你腦子里發生了什么。他不知道你具體在想什么,不知道你潛意識里處理了哪些信息。他不知道你是不是很累,是不是趕時間;也不知道你的道德準則,或者你會怎樣回答電車難題。他也不需要知道。
他看到的,是所有這些近乎瞬時計算的輸出:向左邁一步。
在我看來,這就是魔法。
當然,不是每個人都會做出正確決定。把視頻繼續播放下去,你同樣可以學到這些決定的后果:向左一步,踩進一個更大的水坑;向左一步,被車擦到;向左一步,撞翻嬰兒車里的孩子。
通過數十億次觀察、指令和動作,我們學到的不只是人類如何根據輸入作出反應,還有這些決定會帶來什么后果。一個集體性的世界模型,最終會學會比任何單個人都更聰明地行動。
再把視角拉回到個人身上。
如果你能完美重建一個人的觀察流和動作流,就幾乎擁有了他與現實交互的完整記錄。你會知道他看到了什么,又對此做了什么。
世界模型學習的正是這個映射。它把空間和時間壓縮成緊湊表示,再利用動作推演接下來會發生什么。這也是世界模型計算效率如此高的原因。
這同樣解釋了為什么世界模型能夠處理傳統模擬難以處理的隨機性。為了說明這一點,可以回到前面的曼聯比賽例子,不過這次帶著我們剛剛建立的理解來看。
在傳統模擬引擎里,每一種可能行為都必須被編碼。如果你希望 1,000 個球迷對一個進球作出真實反應,就需要為每一種反應類型寫規則。計算成本會隨著 Agent 數量和它們之間交互復雜度一起上升。
在世界模型里,成本固定為一次神經網絡傳播。隨機、混亂、充滿人類行為的現實,已經通過數百萬小時視頻訓練,被吸收到模型學到的權重中。模型不需要計算“人群應該怎么做”。它已經見過人群實際會怎么做,并用這些經驗作出概率預測。
這就是我所說的:世界模型是一種用來計算不可計算之物的計算方式。傳統計算是確定性的:已知輸入、已知規則、已知輸出。真實世界不是確定性的,所以世界模型并不試圖把這一切硬編碼進去。它們觀察、學習、行動;無論場景多復雜,計算成本都保持相對固定。
世界模型與策略
在繼續往下講之前,還需要區分兩個概念。關于世界模型的很多討論,常常會把它們混在一起。
世界模型是對環境的模擬。它接收動作,生成預測中的觀察結果,告訴你:如果你做了某件事,接下來可能會發生什么。
策略(Policy)是在該環境中行動的 Agent 的大腦。它接收觀察(通常還有指令)并產生動作,也就是說,它決定做什么。
世界模型是夢,策略是做夢的人。做夢的人行動,夢境作出回應。夢境發生變化,做夢的人再繼續行動。
在實踐中,二者的關系比這個區分聽起來更緊密,也更交織。最近一些研究已經開始探索:在世界模型的基礎上訓練策略,或者從一開始就把二者一起構建。
做法是,先從一個世界模型的權重出發。這個系統已經學會預測接下來會發生什么。隨后,不再訓練它預測未來畫面或未來狀態,而是訓練它預測未來動作。
![]()
(來源:Not Boring)
一個學會預測世界的系統,也能更快學會如何在世界中行動。
理解和行動并不是兩個事后拼裝在一起的獨立技能。它們更像是同一種能力的兩個側面。至少,我們和其他實驗室的研究,正開始指向這個結論。
這也意味著,如果你構建出一個足夠好的世界模型,就能更有效地訓練一個策略,讓它在這個模型生成的世界中行動。
這是這個領域在很短時間里學到的許多重要經驗之一。直覺和想象力,原來是一枚硬幣的兩面。
世界模型簡史
一方面,現代世界模型的歷史似乎很容易概括。畢竟,從 Ha 和 Schmidhuber 發表《世界模型》那篇論文算起,也不過 8 年。
另一方面,8 年里發生的事情已經很多。這個領域經歷了幾個明顯的階段,每個階段都圍繞一個新的核心問題展開。這里先挑幾篇重要論文來講。
![]()
(來源:Not Boring)
第零階段發生在 1990 年到 1991 年,也就是深度學習之前的時代。當時,研究者第一次明確提出:Agent 可以學習世界的內部模型,并用它來預測和規劃。他們提出并回答了一個問題:世界模型究竟應該做什么?
這就是 Richard Sutton 的 Dyna,也是 Jürgen Schmidhuber 的《讓世界可微分》。在算力、數據和架構都還沒有準備好之前,那個夢已經出現了,只是還停留在夢境空間里,等待現實追上它。
第一階段發生在 2018 年到 2019 年。這個階段問的是:“這件事真的能做成嗎?”
沿著 Ha 和 Schmidhuber 的工作,最早的范式是:用視頻自編碼器(Video Auto-Encoder,VAE)壓縮畫面,用循環神經網絡(RNN)建模動態,再在生成出來的夢境中訓練策略。簡單說,就是壓縮你看到的東西,預測接下來會發生什么,然后訓練 Agent 在這個模擬世界里行動。
當時真正的問題是:在想象中學習,也就是在夢中學習,是否可行?
研究者用小模型和簡單環境來做概念驗證。毫不夸張地說,下一個大方向,最初看起來就像一個玩具。(譯注:這里化用了硅谷知名投資人、a16z 合伙人 Chris Dixon 2010 年的一篇著名博文《下一個顛覆性技術在早期往往看起來像玩具》的標題)
《基于模型的 Atari 強化學習》引入了 Atari 100k 基準:SimPLe 算法能否僅用 10 萬步真實環境步驟(大約兩小時的游戲時間)來學習 Atari 游戲。答案是肯定的。SimPLe 學會了玩 26 個 Atari 游戲,在樣本效率上擊敗了競爭模型。
![]()
圖丨SimPLe 內部的世界模型(來源:Not Boring)
但它能玩得和人類一樣好嗎?
這就是第二階段(2020 年到 2022 年)推動的問題:“世界模型能達到人類水平嗎?”
Google DeepMind 的 Danijar Hafner 很快用 DreamerV2 給出了答案。他們使用了循環狀態空間模型(Recurrent State-Space Model,RSSM),并引入離散潛在表征。這個系統會維護一個關于世界的壓縮運行記憶,并隨著每一次觀察不斷更新。
DreamerV2 成為第一個在 55 款 Atari 游戲基準上達到人類水平的世界模型 Agent。它完全在想象中訓練,而且只用了一塊 GPU。
同一年,DeepMind 另一個團隊在《Nature》上發表了論文《Mastering Atari, Go, chess and shogi by planning with a learned model》。論文介紹了 MuZero。MuZero 同樣擊敗了 Atari 游戲,也在圍棋等游戲中表現出色,但它采用了幾乎完全相反的哲學路線。
DreamerV2 會生成可以被觀察的夢境環境,并在其中訓練。MuZero 則完全不生成任何可觀察的東西。它只在自己發明的抽象潛在表征中規劃,而且效果很好。
事實上,它好到超越了那些專門為圍棋設計的模型。
2016 年,DeepMind 的 AlphaGo 以 4 比 1 擊敗人類圍棋冠軍李世乭。它的訓練依賴大量人類專家棋譜和自我博弈,游戲規則則是硬編碼進去的。第二年,AlphaGo Zero 在沒有任何人類棋譜、只有規則的情況下,完全通過自我博弈訓練,以 100 比 0 擊敗 AlphaGo。
同一時期,AlphaZero 又把 AlphaGo Zero 的方法推廣到國際象棋和將棋等其他游戲,并在幾個小時內統治這些游戲。
到了 2019 年的預印本中,MuZero 進一步把規則、游戲動態和價值函數都從零學起。它只依靠觀察和結果,學會了這一切。它在圍棋、國際象棋和將棋上追平了 AlphaZero,而 AlphaZero 是知道規則的;同時,它還泛化到了 57 款 Atari 游戲。在 Atari 里,“規則”甚至不是一個定義清晰的概念。
每一代新模型,都移除了一些過去由人類硬編碼進去的東西:規則、策略、一個局面的價值。模型不再接收這些先驗,而是從零開始學會它們。MuZero 是這條路徑的終點:一切都由模型自己學出來。
更重要的是,MuZero 做到這一切,并沒有想象未來棋盤會是什么樣。它想象的是隱藏狀態,也就是訓練過程中自己發明出來的抽象向量。這些向量不保證對應任何人類可以觀察或解釋的東西。
如果一個人去看 MuZero 對“三步之后”的內部表征,根本不會知道它在想什么,但它就是超過了此前所有模型。
MuZero 的成功,讓這個領域出現了兩種相互對照的路線:一種是生成式世界模型,負責產生可以被觀察的未來;另一種是潛空間世界模型,在抽象空間里進行預測,盡管當時人們還未必這樣稱呼它。
從那以后,世界模型的進展基本沿著這兩個方向同時推進:生成式路線和潛空間路線。
在潛空間路線這邊,2022 年,Yann LeCun 以 Meta 和 NYU Courant 研究者的雙重身份發表了一篇重要的立場論文:《通向自主機器智能的路徑》(A Path Towards Autonomous Machine Intelligence)。這篇論文提出了一套與生成式模型根本不同的哲學,更接近 MuZero 的路線。LeCun 后來創辦的世界模型公司 AMI,名字就來自這篇論文。
LeCun 的聯合嵌入預測架構(Joint Embedding Predictive Architecture,JEPA)反對直接生成像素。和 MuZero 類似,JEPA 不預測世界“看起來會怎樣”,而是預測世界“意味著什么”。它預測的是未來狀態的抽象表征,并有意丟棄那些不可預測的視覺細節。
![]()
(來源:arXiv)
同一年,在生成式路線這邊,IRIS(2022)出現了。它由 Vincent Micheli 和 Eloi Alonso 開發,兩人后來都成為 General Intuition 的聯合創始人。IRIS 把世界建模重新定義為一種語言建模,只不過它建模的不是詞,而是圖像 token 的詞表。
IRIS 沒有使用循環狀態空間模型,而是在離散視覺 token 上使用了 GPT 風格的自回歸 Transformer。簡單說,IRIS 借用了語言模型的機制,把它應用到了世界建模上。
這樣一來,IRIS 彌補了此前方法的一些缺口。IRIS 世界模型本質上像一個語言模型,只是它的“詞匯”不是文字,而是圖像和動作。這也把大語言模型的擴展特性直接帶進了世界建模:高效的注意力機制、擴展定律,以及圍繞大語言模型建立起來的工程基礎設施,現在都可以用來學習物理世界。
Dreamer 缺少建模下一個潛在狀態聯合分布的能力,比如處理多模態結果的能力。IRIS 則把下一個潛在狀態表示為一系列離散 token,并以自回歸方式預測它們,因此可以預測多種可能結果。
還有一點不同:Dreamer 能超過人類,是因為它使用了比人類多得多的數據;IRIS 則是第一個在可用游戲數據量相同的情況下,也就是大約 2 小時游戲數據內,通過“想象中學習”超過人類的方法。
先把 JEPA 放在一邊。到這個階段為止,世界模型領域幾乎所有工作都發生在游戲里。因此,在進入第三階段之前,有必要稍微停一下,看看 AI 和游戲之間的特殊關系。
游戲一直在 AI 發展中扮演重要角色。Claude Shannon 在 1950 年發表的《編程計算機下國際象棋》,是 AI 的奠基文獻之一。1959 年,Arthur Samuel 的跳棋程序引入了“機器學習”這個概念。世界第一次真正意識到智能機器可以在某件事情上擊敗人類,是 IBM 的深藍在國際象棋中戰勝 Garry Kasparov。
在 DeepMind 成為 AI 實驗室之前,Demis Hassabis 是一名游戲設計師。17 歲時,他設計了商業上相當成功的《主題公園》(Theme Park)。
DeepMind 最早的突破,來自 2015 年發表在《Nature》上的 DQN 論文。它證明,深度強化學習可以只根據原始像素來玩 Atari 游戲。隨后,2016 年 AlphaGo 擊敗世界圍棋冠軍。圍棋曾被認為需要某種人類獨有的直覺,因為它可能出現的棋盤局面,比宇宙中的原子還多。
從 AlphaGo 到 AlphaFold 的路徑,正好經過了世界模型后來形式化的那個洞察。Hassabis 曾說:“如果我們能模仿這些玩家的直覺,那不是很不可思議嗎?順便說一句,他們其實只是業余生物學家。”
General Intuition 的名字,正來自 Demis 的這句話。它指向的是一個未來:模型驅動的研究可以超越今天像素所能描述的動態,超越游戲本身,進入我們的身體。
后來,DeepMind 讓機器學會了蛋白質折疊。AlphaFold 也讓 Hassabis 和他的 DeepMind 同事 John Jumper 獲得了 2024 年諾貝爾化學獎。
游戲當然有趣。但游戲之所以反復出現在 AI 發展史里,是因為它們是少數能夠提供海量帶標簽時空數據的領域:動作和結果之間的對應關系清晰,物理規則一致,獎勵信號明確,環境可控,還可以重復做數百萬次實驗。真實世界不具備這些條件。
早期世界模型就像人類兒童一樣,大部分時間都在觀看和玩游戲。Atari 100k 成為世界模型研究的標準場地,DreamerV3 玩 Minecraft,今天很多世界模型公司也仍然和游戲保持聯系,許多世界模型本身就是“可玩”的。
游戲是具身 AI 的實驗臺。但這只覆蓋了整個雄心的一小部分。世界模型要真正有用,就必須能和真實世界交互。
這就是第三階段,發生在 2023 年到 2024 年。它追問的是:“世界模型真的能交互嗎?”
第一個答案來自自動駕駛。
GAIA-1(2023)由 Wayve 開發,把 IRIS 開創的序列建模方法擴展到 90 億參數,并用真實世界駕駛視頻訓練。它可以根據動作生成駕駛場景,比如轉動方向盤;也可以根據文本提示生成,比如“雨天,高速公路”;還可以同時根據二者生成。領導這項研究的 Anthony Hu,現在負責 General Intuition 的世界建模工作。
GAIA-1 證明,人們在大語言模型中觀察到的擴展定律,同樣適用于視覺世界模型。更多數據、更大參數,也會可預測地帶來更好表現。這一點并非理所當然。它意味著,前進道路雖然昂貴,但方向很清楚:擴大規模,模型就會變得更好。
第二年,DIAMOND(2024)打開了新的架構前沿。它由 General Intuition 未來的聯合創始人 Eloi Alonso、Adam Jelley 和 Vincent Micheli 開發。
自 IRIS 以來,研究者通常會把觀察壓縮成離散 token,再用自回歸方式預測。DIAMOND 則不同,它使用擴散模型直接預測未來幀。
視覺保真度因此明顯提高,而這種豐富度也直接轉化成了更好的 Agent 表現。那些被離散 token 丟掉的細微視覺線索,比如一個表面是否濕滑、一扇門是否半開、一個人是否即將改變方向,事實證明都對決策很重要。仔細想想,這并不意外。
順帶一提,世界建模領域許多開源進展都建立在 DIAMOND 架構之上。第一個 AI 生成的多人游戲 Multiverse 基于 DIAMOND,被稱為“第一個世界模型游戲引擎”的 Alakazam 也是如此。DIAMOND 基本可以看作生成式世界模型里的 DeepSeek 或 Llama。
DIAMOND 本身在 Atari 100k 上創造了新的最佳成績,也展示了一個真正抓住公眾想象力的東西:它用大約 87 小時的《反恐精英》游戲素材,在單塊 GPU 上訓練出了一個完全交互式、可玩的神經游戲引擎。
它證明,實時運行一個交互式 3D 世界模型也是可能的。
![]()
(來源:arXiv)
DIAMOND 擅長玩 Atari。Agent 玩真正的游戲并在那里收集真實數據,用這些數據訓練世界模型。然后它在世界模型的合成環境中測試自己,在那里變得更好,然后回到外面進行更多真實交互。這種在 ground truth 和合成之間來回循環的方式,就是世界模型改進的方式,幾乎像在清醒夢中解決問題,然后在醒來后的現實中測試它們。這就是前面提到的 Dyna 范式。
這個循環在真實世界條件下也能工作嗎?答案也是肯定的。而且效果很好。
GAIA-2(2025 年 3 月)將擴散方法推向了其最雄心勃勃的應用:多攝像頭自動駕駛模擬。它可以生成以自車動態、其他 Agent 軌跡、天氣、一天中的時間、道路結構為條件的高分辨率環視駕駛視頻。簡而言之,它可以再現真實駕駛的全部復雜性。它可以模擬在真實道路上太危險或太稀有而無法收集的場景:突然的加塞、緊急制動、行人走下路緣。
GAIA-1 和 2,以及 DIAMOND,和 IRIS 一樣,都是現在在 General Intuition 工作的研究者的成果。擴散或流匹配(flow-matching)模型如 GAIA-2 是團隊當前研究工作的起點。
但這不是唯一的方法。
Google DeepMind 是這個領域的核心玩家之一。他們的世界模型 Genie(2024 年)是一個 110 億參數的模型,在未標注的 2D 平臺游戲互聯網視頻上訓練。它完全從零學習了一個動作空間;沒有人告訴模型控制方式是什么。給它任何圖像,它就能從中生成一個可玩的世界。
OpenAI 的 Sora(2024 年,Sora 2 在 2025 年跟進)和 Google 的 Veo 3(2025 年)將視頻生成推向了非凡的視覺質量,并將這些系統明確定位為“世界模擬器”。
該領域的詞匯可能會變得混亂。讓我們說清楚。視頻生成模型產生美麗的視覺序列,但它們并不完全是我們一直在描述的那種世界模型。在這些視頻中,你不能采取動作并看到環境實時回應你的干預。它們預測一個場景隨時間會看起來怎樣,但不試圖建模因為你做了什么而發生了什么。
想想看一個駕駛電影和實際握方向盤駕駛的區別。視覺輸出可能看起來相似,但底層計算根本不同。交互性,即那種采取動作并觀察其后果的能力,是世界模型和一個非常令人印象深刻的視頻之間的分界線。
交互性也是影響現實世界所需要的。
這是第四浪潮的核心問題,也是我們現在所處的浪潮:“模型能在真實世界中行動嗎?”
也就是說:在世界模型中訓練的 Agent 能否在研究環境之外工作,在真實車輛、真實機器人、真實部署中?
Comma.ai 在自動駕駛領域走了最直接的路徑:他們完全在學習到的世界模型內部,即在“夢境”中,訓練了一個駕駛策略,并將其部署在 openpilot 中,他們運行在真實車輛上的開源駕駛輔助系統。世界模型訓練的策略優于傳統模仿學習和在常規模擬器中訓練的策略。這可以說是第一個由世界模型訓練的 Agent 驅動的消費產品。
在機器人領域,Meta 的 V-JEPA 2 使 LeCun 的潛在預測哲學具象化。這是迄今為止最清晰的大規模概念驗證。這個 12 億參數的模型在超過一百萬小時的視頻上通過自監督掩碼預測進行預訓練:沒有標簽,沒有文本。
第二階段,僅在 Droid 數據集的 62 小時機器人數據上進行微調。事實證明這足以產生一個支持零樣本規劃的動作條件化世界模型。V-JEPA 2 在新環境中零樣本部署在真實的 Franka 機械臂上執行取放任務。它完全在潛在空間中規劃,不需要像素生成、任務特定訓練或手工設計的獎勵。而且它很快,像素空間方法需要幾分鐘來規劃一個動作,V-JEPA 2 只需幾秒。
Google DeepMind 的 SIMA 2 采取了完全不同的方法。與構建專門的世界模型不同,它微調了 Gemini 使其直接在 3D 游戲環境中作為 Agent 行動。SIMA 2 可以推理高層目標、遵循復雜的多步驟指令、與用戶對話,并泛化到未見過的環境。
它代表了一種替代范式:不是構建專門的世界模型,而是利用已經嵌入在一個經過人類全部知識訓練的模型中的隱式世界知識。
這是該領域的開放問題之一。這種使用大型基礎模型或視頻模型作為 Agent 的基礎,而不是從零開始在世界模型中訓練 Agent 路徑,最終會勝出嗎?
事實上有許多開放問題,以及幾乎同樣多的世界模型初創公司在嘗試回答它們。
世界模型的當前格局
這就把我們帶到了當下。毫無意外,如今頂尖研究者和投資人都對世界模型的潛力感到興奮。幾家由領域傳奇人物創辦或領導的公司,接連拿到大額融資,就是最直接的證據。
2026 年 2 月,李飛飛創辦的 World Labs 宣布完成新一輪 10 億美元融資,投后估值 54 億美元。
Yann LeCun 也不甘落后。他在 2025 年底創辦 AMI Labs,上周宣布公司完成 10.3 億美元融資,估值 35 億美元。
2025 年 10 月,我們的公司 General Intuition 宣布完成 1.337 億美元種子輪融資。去年夏天,Decart 以 31 億美元估值融資 1 億美元。11 月,Physical Intelligence 為機器人基礎模型融資 6 億美元,估值 56 億美元。今年 2 月,英國自動駕駛公司 Wayve 完成 12 億美元融資,估值 86 億美元;GAIA-1 和 GAIA-2 正是由 Wayve 的研究者開發出來的。
Google DeepMind 不需要融資,因為它背后有史上最強大的商業機器之一。它正在把大量資源投入 SIMA、Genie 和 Veo,并把這些能力用于 Waymo 等項目。Demis 也公開表示,他相信世界模型會成為 Gemini 規劃能力的重要組成部分。Google DeepMind 還在把許多相關能力整合進一個“Video Thinking”團隊。
更不確定、也更有意思的是,這項技術正處在一個特殊節點:我們知道大事正在發生,但還不知道究竟哪條路線,或哪幾條路線的組合,會最終勝出。General Intuition 幾乎每天都能看到新的突破,我們也聽說其他實驗室正在發生類似躍遷。
接下來,可以用一個框架來看世界模型領域的各種新聞。我們不可能覆蓋所有公司和路線,如果漏掉你關心的具身 AI 項目,先說聲抱歉。讀者也可以把那些沒被提到的項目,放進下面這個框架里自己判斷。
世界模型相關路線大致可以分成三類:當前基礎模型、世界模型,以及具身 Agent。
需要記住的是,雖然大家采用的世界模型路線不同,最終目標其實一致:做出能夠泛化的 Agent,讓它們能在各種環境中完成任務,包括真實世界。一些 Agent 路線把大語言模型當作跳板,另一些從視頻模型出發。還有一些路線把世界模型當作訓練環境,也有一些 Agent 直接從經驗中學習。
基礎模型
當前的基礎模型學會了理解世界數據但不能模擬隨機世界環境本身。它們處理文本、圖像、視頻等輸入,并學會預測、生成或重建。但它們還沒有給 Agent 一個行動的地方。它們不是動作條件化的。它們不回應或交互。它們是可以構建世界模型的潛在基底,或者在某些情況下是 Agent 預訓練的基礎。
大語言模型從驚人數量的文本中學到了世界有結構。它們知道杯子被推下去會掉,火是熱的,下雨天不帶傘出門會被淋濕。它們編碼了大量的因果和物理知識。但這些都不是來自經驗。像數字版的卡斯塔利亞人,它們閱讀了關于世界的描述而非感知它。這使它們作為推理和規劃的骨干極其有用,這也是為什么你會在許多 Agent 架構中找到嵌入的 LLM。
但光靠語言模型無法模擬機械臂去拿杯子時會發生什么。在世界模型的語境中,LLM 在討論 VLA(視覺 - 語言 - 動作模型)時特別相關,后者利用了為 LLM 開發所投入的巨大研究、資本、工具和基礎設施來引導能在物理世界中做事的機器人。
視頻模型
沒有人會把大語言模型誤認為世界模型,但很多人會把視頻模型和世界模型混為一談。
這些模型用互聯網上海量視頻數據訓練,本身也能生成極其驚艷的視頻。Sora 可以生成一個女人走過東京霓虹街頭的可信鏡頭。Veo 3 可以渲染出帶同步對話的照片級場景。
但你不能和它們交互。你不能在其中采取動作,并立刻看到環境作出回應。它們預測的是一個場景隨時間會變成什么樣,而不是建模“你做了什么,因此發生了什么”。
當然,邊界正在變得模糊。
Odyssey 由兩位自動駕駛領域資深人士 Oliver Cameron 和 Jeff Hawke 創辦,前者曾在 Cruise 工作,后者曾在 Wayve 工作。它正在構建一個“用視頻做夢的世界模擬器”。目前,它還不能讓你采取動作并觀察環境回應,但它已經允許用戶在視頻播放過程中輸入提示,實時改變視頻走向。界線到底應該畫在哪里,變得沒那么簡單。
無論界線在哪里,視頻模型正在變得越來越強,也越來越有娛樂性。
不過,按照本文的定義,視頻模型還不完全是世界模型。它們更像一個跳板。Runway 最初是一家視頻生成公司,Gen 4.5 也是市場上最強的視頻模型之一。但 Runway 已經得出結論:具備物理感知能力的視頻生成,是通往更大目標的一條路徑。
這種判斷催生了 GWM-1。Runway 明確把它稱為“通用世界模型”,目標是實時模擬現實。它是交互式的、可控的,也是通用的。
真正的價值,無論是商業價值還是社會價值,都不會來自“為了視頻而生成視頻”。更重要的是,用視頻作為訓練環境,最終走向對具身系統的控制。
3D 重建和生成模型
再往前走一步:如果你不僅能觀看視頻生成模型描繪的場景,還能在其中穿行呢?這聽起來就很像一個“世界”了,對吧?
李飛飛領導的 World Labs,是這個類別里最有代表性的例子。李飛飛是 ImageNet 的創建者,也常被稱為“AI 教母”。雖然大多數人一聽到“世界模型”,很可能會想到 World Labs,但按照本文的定義,World Labs 目前還不是在構建真正的世界模型。
在早期階段,World Labs 主要聚焦沉浸式虛擬世界,但這些世界并不是以動作為條件的。它的第一個產品 Marble,可以根據文本、圖像、視頻或 3D 布局生成和編輯持久存在的 3D 環境。World Labs 稱之為“多模態世界模型”。
不過到目前為止,Marble 還不是交互式的。用戶可以在生成出的環境里移動,但除此之外,世界并不會根據用戶行動實時回應。World Labs 自己也承認這一點。在 Marble 的產品頁面上,它把交互性描述為未來機會:
未來的世界模型將讓人類和 Agent 以新的方式與生成世界交互,解鎖模擬、機器人等領域的更多應用。
值得注意的是,World Labs 最近也開始探索另一類世界模型:不再生成整個世界的底層 splats(高斯潑濺),而是直接生成幀。
世界模型
按照本文的定義,世界模型是一個 Agent 可以在其中行動、并能實時回應行動的環境。它是一個模擬,一個夢;不是手工編碼出來的,而是從觀察數據和動作數據中學習出來的。
Agent 采取一個動作,世界隨之改變,Agent 再觀察發生了什么。這個過程在大量不同情境中重復數百萬次。理想情況下,最終得到的 Agent 能夠泛化,做出原始訓練數據中沒有出現過的事情。
關鍵區別就在這里:世界模型是以動作為條件的。它會根據 Agent 剛剛做了什么,預測世界接下來會是什么樣。
直覺并不復雜。一個只用真實世界數據訓練出來的機器人,見過的廚房是有限的,見過的杯子是有限的,見過杯子掉落的方式也是有限的。把它放進一個從沒見過的廚房,給它一個從沒見過的杯子,它就會吃力。
但如果機器人是在世界模型中訓練的,原則上,它可以見過無限多個廚房,因為世界模型可以生成它們。那些在真實世界中罕見、昂貴或危險的場景,在模擬中可以變成常規訓練樣本。分布外問題,也就被拉回了分布內。
在世界模型內部,又有兩條主要路線:潛空間世界模型和生成式世界模型。
這里稍微深入一點,因為這是很多人容易混淆的地方。生成式世界模型和潛空間世界模型都依賴潛在狀態,但二者的潛在狀態來源不同。生成式世界模型依賴的是為重建目標設計的潛在狀態,通常來自自編碼器,因此可以進一步預測畫面幀。潛空間世界模型則直接構建自預測表征,不以還原畫面為目標。
用一個比喻說,潛空間世界模型生于黑暗,也一直生活在黑暗中;生成式世界模型只是生于黑暗。
潛在世界模型
潛空間世界模型可以看作 MuZero 的后代,只不過它們被放進了像真實世界這樣開放、沒有明確規則的環境里。
這是 Yann LeCun 現在所在的世界。20 世紀 90 年代,他通過 LeNet 開創了現代計算機視覺架構,引入了卷積神經網絡(CNN)的核心思想。2010 年代,他大力推動自監督學習,認為依賴人類標注數百萬樣本無法通向真正智能,模型應該從原始數據中自己創造學習信號。到了 2020 年代,他領導了 JEPA 團隊。
貫穿 LeCun 研究的一條主線,是讓模型自動從原始數據中學到有用的世界表征。潛空間世界模型,正是這條主線最新、也可能是最終的一支。
這種方法在哲學上幾乎站在視頻模型和 3D 重建模型的反面。后兩者關心的是生成和理解每一個像素;潛空間世界模型,尤其是 JEPA,則說:別費這個勁。
JEPA 不讓模型在不可預測未來的每一個像素上絆倒。它干脆不預測像素。
LeCun 的說法是:“世界是不可預測的。如果你試圖構建一個生成式模型,預測未來的每一個細節,它會失敗。JEPA 不是生成式 AI。”
相反,JEPA 學習在抽象、壓縮的空間中表征視頻,并在這個空間里做預測。它有意丟棄不可預測的視覺細節。這讓 JEPA 在規劃和表征學習上可能非常高效。AMI Labs 就是 LeCun 對這條路線的押注:他相信它通向真正智能。投資人最近也用 10.3 億美元支持了這個判斷。
潛空間路線和生成式路線一樣,也有取舍。
LeCun 認為,許多人眼中最大的取舍,也就是用保真度換速度,其實并不是真正的取舍。在他看來,被丟掉的那些細節,本來就應該被丟掉。試圖預測每一個像素,不僅成本高,而且會適得其反:模型把容量浪費在本質上不可預測的視覺細節上,而不是去學習真正對推理和規劃有用的抽象因果結構。
想象一下,如果你在腦中模擬接球時,必須模擬每一個光子會怎樣,你的大腦可能會爆炸。
所以,一定存在某個最佳細節層級。它不是“所有細節”。LeCun 的觀點是,在世界模型里,這個最佳層級需要的細節,比很多人想象得更少,也比我們想象得更少。
不過,潛空間路線還有其他取舍,LeCun 沒有特別強調。
第一個問題是,潛空間模型更難評估。對于生成視頻,你可以直接看輸出,憑直覺判斷它是否合理。但潛空間模型不能這樣做。它也很難作為人在回路系統的訓練場,因為人類無法在潛空間里操作。我們必須看見世界,才能在世界中行動。
另一個相關缺點是,當你無法可視化預測結果,也無法直觀解釋損失時,迭代速度會變慢。人類很擅長發現視覺上哪里不對勁;但我們并不是進化來識別未來潛在編碼里的差異的,比如 [0.13, -1.02, 0.44, 0.07, …],MSE = 0.0187 這種東西。
而迭代速度,恰恰是現代機器學習中最重要的因素之一。現代機器學習的進步,主要來自經驗性搜索,而不是一開始就知道正確設計是什么。
出于類似原因,潛空間模型訓練起來也更難。此外,由于學習目標中缺少強監督,它們容易出現表征坍縮,需要很多技巧來修正。
原因在于,JEPA 的目標是根據過去的編碼預測未來的編碼。但這個目標可以被平凡解滿足。比如,把所有東西都編碼成 0,損失也會是 0。因此,研究者必須確保表征不會坍縮。
如果把“為 Agent 創建訓練環境”看成一條光譜,一端是今天實用的方案,另一端是柏拉圖式的理想。潛空間世界模型幾乎位于 VLA 的反面,更接近研究者眼中的技術理想形態。但在今天的實踐中,它仍然面臨很真實的挑戰。
當然,像 LeJepa 這樣的新方法正在縮小這個差距。
![]()
(來源:Not Boring)
Chris Manning、Ian Goodfellow 和 Fan-Yun Sun 也加入了潛空間世界模型陣營,創辦了 Moonlake。Manning 是神經自然語言處理的重要開創者之一,也參與創建了 GloVe。Goodfellow 則發明了 GAN,也就是生成對抗網絡。
Moonlake 的計劃很有意思:先生成完整的游戲環境,吸引人類玩家進入其中,從而收集帶動作標簽的數據;隨后,在語義或符號空間中建模世界,而不是在像素空間中建模。
換句話說,他們用漂亮的游戲環境吸引真實人類玩家,因為他們需要人類產生動作標簽數據。但一旦數據收集完成,就會徹底丟棄像素,轉而在抽象表征上訓練模型。
歸根結底,潛空間模型和生成式模型不應該被看作彼此對立。Moonlake 的混合方法就是一個例子。二者只是服務于不同目標。
潛空間世界模型通常會丟棄一部分信息,因此計算效率更高,在表征學習和規劃上有優勢。生成式世界模型理論上捕捉了全部視覺信息,因此更通用,在可解釋性和泛化上更有優勢。
生成式世界模型
現在來看生成式世界模型。
在我們知道的所有方法里,生成式世界模型最接近于模擬人類感知到的現實。如果我們的世界真的是一個模擬,它很可能就是某種生成式世界模型。
這也是 General Intuition 主要押注的范式。我們的策略就在這類世界模型中學習。Google DeepMind 最近發布 Genie 3 時,讓整個世界震驚的,也是這條路線。
如果你看過 Genie 3 的演示,或者有機會親自玩一玩,就能直觀感受到生成式世界模型的不同。它們是交互式的。它們會回應你。
生成式世界模型會生成人類可以觀察的、可交互的未來。你可以看到它,在里面行動,并從中學習。你能看到模型認為接下來會發生什么。模型接收一個狀態和一個動作,生成一個合理的下一個狀態;你可以在這個新狀態里繼續行動。基于更新后的狀態和新的動作,它再生成下一個合理狀態,如此循環。
人類可以直接看著輸出判斷:“這不對,墻不會那樣彎曲。”或者:“對,高速轉方向盤時,確實會發生這種事。”
生成式世界模型預測的是觀察本身,可以是像素、視頻,也可以是 3D 場景。因此,Agent 和人類都能與模擬環境交互。這個夢是可見的,也是可玩的。
在很多情況下,這會改善訓練循環。生成式模型和潛空間模型都可以在想象中學習。但當視覺細節很重要,或者下游任務還不明確時,保留所有像素級細節的生成式世界模型,往往會有更好的學習效果。
前提是,生成環境必須足夠豐富,值得從中學習。生成世界偏離現實越遠,Agent 從中學到的經驗就越差;當它回到真實游戲或真實世界時,表現也越不可靠。DIAMOND 證明的正是這一點:生成世界的細節越多,Agent 越聰明。
General Intuition 正是在這種擴散和流匹配架構之上繼續構建。這個方向的一部分基礎,來自我們現在的聯合創始人;他們曾開發 IRIS、DIAMOND 和 GAIA-2。
Wayve 是自動駕駛領域生成式世界模型的領先者,也是 GAIA-1 和 GAIA-2 的誕生地。Wayve 的思路是,在車外用一個大型潛在擴散世界模型“做夢”,生成現實中可能要開數百萬英里才會遇到的邊緣案例;再用這些場景訓練駕駛策略,在模擬中評估策略表現;最后,把這些夢境經驗蒸餾進一個更小的車載策略中,讓它能實時處理類似場景。
Wayve 創始人 Alex Kendall 最近展示了系列視頻中的一個案例:模型在日本道路上進行零樣本自動駕駛,從高速公路到濕滑、擁擠、狹窄的城市道路,都能完成駕駛。
Decart 則把生成式世界模型用于實時生成模擬,創造出會回應用戶動作的可玩世界。它可以看作生成式視頻模型或 3D 重建模型的可玩版本。在 Oasis 的產品頁上,Decart 把這個模型稱為“視頻模型”,但后面又補充了一個關鍵區別:“你邁出的每一步,都會實時重塑周圍環境。”
有意思的是,Decart 目前運行在 Nvidia GPU 上,但計劃使用 Etched 的 Sohu 芯片。Etched 的芯片是為運行 Transformer 定制的 ASIC,可以幫助 Decart 降低延遲,并進行連續推理。相比提前生成一段視頻或一個 3D 渲染結果,實時生成可響應的世界,對低延遲和連續推理的要求要高得多。
Runway 也在模糊視頻生成和世界生成之間的界線。前面講視頻模型時提到過,Runway 最初從“生成式 AI 模型可以成為創作表達工具”出發,后來逐漸走向世界模型。當然,它在視頻模型上仍然進展很快。
在 2025 年 Research Demo Day 上,Runway 聯合創始人兼 CTO Anastasis Germanidis 解釋了公司的演進:“要構建世界模型,我們首先需要構建一個非常好的視頻模型。我們相信,這是構建世界模型的正確路徑。教模型直接預測像素,是實現通用模擬的最好方式。”
Google DeepMind 采取了類似路線。Genie 3 就建立在 Veo 之上。
這些世界模型非常重要。但要記住,它們只是等式的一半。從一開始,無論是 1990 年的 Schmidhuber,還是 1991 年 Sutton 的 Dyna,目標都不是只構建一個世界模型,而是用世界模型訓練 Agent,讓它們在世界中行動,再把學到的能力遷移到真實世界。
具身 Agent
下面看幾個今天比較重要的具身 Agent 案例,以及它們各自采用的方法:Physical Intelligence 和其他機器人公司的 VLA(Vision-Language-Action Models,視覺-語言-動作模型)、DreamerV4 的潛空間世界模型 Agent、Google DeepMind 的 SIMA 2 通用具身 Agent,以及 General Intuition 的通用 Agent 路線。
Physical Intelligence:視覺-語言-動作模型(VLA)
現代多模態大語言模型通常會包含一種模型,叫 VLM(Vision-Language Model,視覺-語言模型)。它既能看,也能讀。給它一張圖片,再問它“桌上有什么東西?”或者“這扇門是開著還是關著?”,它可以給出連貫、基于畫面內容的回答。
從這個意義上說,GPT-5、Gemini 和 Claude 都是 VLM。它們能看,也能推理。你給模型發一張山的照片,讓它判斷照片拍攝地點時,它用到的就是 VLM 能力。
VLM 也是很多現代 Agent 系統的感知和推理骨干,尤其是那些要在物理環境或交互式環境中運行的系統,比如 PaLM-E 或 SpatialVLM。
VLM 本身還不完全是 Agent,但它是許多 Agent 的核心組件。之所以在這里提到它,是因為 VLA 可以理解為一個學會行動的 VLM。它是對 Agent 問題的一種實用主義解法。
2023 年,Google DeepMind 發表了 RT-2 論文,全名是《Vision-Language-Action Models: Transfer Web Knowledge to Robotic Control》。它提出了一種方案:先拿一個能理解場景、也能理解該做什么的 VLM,再給它接上一個動作頭(action head),把人類語言指令翻譯成機器人可以執行的指令,比如改變位置或旋轉。
從那以后,VLA 成為機器人領域的主導范式,而且效果出人意料地好。
![]()
圖丨Google RT-2(來源:Google)
我們前面討論的其他范式,大體都在說同一件事:圖像、視頻、空間和動作,與文字有本質區別。因此,用來生成它們的模型,在訓練方式和架構上都應該不同于生成文字的模型。
VLA 的回答則是:也許如此。那些方法在理論上可能更接近理想形態。但在實踐中,這不重要,因為視覺-語言模型的基礎設施和數據積累已經遙遙領先。
在 Not Boring 之前關于機器人的文章中,Standard Bots 的 Evan Beard 曾詳細解釋 VLA 在機器人中的作用,并提出一個“辛辣觀點”:我們使用語言模型基礎設施,并不是因為它是機器人最完美的架構。原因是,作為一個物種,我們已經投入了數萬億美元和無數工程時間來建設大語言模型基礎設施。復用這臺機器,實在太有吸引力。
所以,即便這種方法并不完美,把一個大語言模型拿來,加上一個用于預測機器人動作的動作頭,也就是 VLA,仍然是今天訓練機器人基礎模型的最好方式之一。它可以從不同客戶、不同任務的大量演示中學習多種技能。
這個思路確實很聰明。當然,它也有問題。Evan 提到過幾個挑戰:機器人到目前為止的成功,很大程度上依賴擴散式控制;大語言模型是自回歸、基于 token 的系統,容錯空間更小;而物理動作并不能干凈地映射成 token。
此外,與世界模型相比,VLA 需要收集大量真實世界機器人數據;它們在分布外任務上的泛化能力,看起來也并不特別強。
即便如此,Physical Intelligence,也就是 π 或 Pi,已經憑借 VLA 這條路線走得非常遠。
Pi 的第一個通用策略 π?,繼承了互聯網規模預訓練帶來的語義知識和視覺理解能力,并在 7 個不同機器人平臺、68 個獨特任務的數據上訓練,包括疊衣服、收拾餐具、布線、組裝箱子、裝雜貨等。這些任務都需要機器人在真實硬件上完成現實世界中的靈巧操作。
后續模型 π?.5 更強調開放世界泛化能力。在模型從未見過的新環境中,比如清理一間廚房或臥室,它表現得更好。
問題是,它能不能在真實世界中一邊工作、一邊犯錯,并隨著經驗積累變得更好?
2025 年 11 月發布的 π*0.6 表明,這是可能的。它展示了機器人從經驗中學習的能力,任務包括制作濃縮咖啡、折疊紙箱和疊衣服。
但這些仍然是比較簡單、重復性較強的任務。機器人看到的大部分東西仍然在分布內。它能不能完成更復雜、耗時更長的多步驟任務?
本月早些時候,Pi 發布了帶長短期記憶的 VLA,展示了使用 MEM(Multi-scale Embodied Memory,多尺度具身記憶)的機器人可以清理整間廚房、為一道菜準備食材,還可以烤一份芝士三明治。它們也能從錯誤中學習。
一個機器人嘗試拿起一根筷子,或者打開冰箱門。沒有記憶時,它會反復以同樣方式失敗。每次嘗試都像從零開始,不知道剛才出了什么問題。有了記憶后,它會在第一次失敗后換一種方法。然后,它成功了。
MEM 并沒有改變底層架構,而這個架構對具身系統來說仍然不是最優。大部分參數仍然留在語言骨干中,動作頭也仍然位于推理之后。但 Physical Intelligence 的存在提出了一個很有意思的問題:這些架構限制,在實踐中真的重要嗎?
如果潛空間世界模型位于“柏拉圖式理想”和“實用主義”光譜的一端,那么 VLA 就在另一端。
到目前為止,Pi 已經通過工程手段繞過架構限制,做出了越來越強的機器人。它們的進展沒有放緩,反而像是在加速。
這類賭注有歷史先例。理想技術,也就是技術上更優越的方案,并不總是最終贏家。這是 W. Brian Arthur 1989 年論文《競爭性技術、遞增收益與歷史事件鎖定》的核心結論。市場往往會收斂到最先被大規模采用的技術上,因為采用本身會帶來遞增收益:早期產品更好,帶來更多用戶和資本;更多用戶和資本帶來更好的數據、更多內部人才和開發者;這些又繼續帶來更好的產品,進一步吸引用戶和資本。
Sara Hooker 2020 年的論文《硬件彩票》也表達了類似觀點:“硬件彩票”指的是,一種研究想法之所以獲勝,是因為它適配當時可用的軟件和硬件,而不是因為它本身優于其他研究方向。
從外部看,Pi 的策略似乎是借助 Transformer 架構已經形成的遞增收益,并試圖制造自己的遞增收益。它希望在專門為世界模型設計的架構真正形成勢能之前,先用 VLA 創造路徑依賴,贏下屬于自己的“硬件彩票”。
押注這條路線的并不只有 Pi。它最直接的競爭對手 Skild,也在基于 VLA 構建。許多機器人公司也以不同方式使用 VLA 和 VLM。現在,這種方法看起來還在向整個工廠場景擴散。
最近,《華爾街日報》報道稱,OpenAI 前首席研究官 Bob McGrew 正在為自己的新公司 Arda 融資 7,000 萬美元,估值 7 億美元。該輪融資由 Founders Fund 和 Accel 領投,Khosla 和 XYZ 參投。公開細節不多,但《華爾街日報》的描述聽起來,至少會涉及某種形式的 VLM 和 VLA:Arda 正在開發一個 AI 和軟件平臺,其中包括一個可以分析工廠車間視頻,并用這些視頻訓練機器人自主運營工廠的視頻模型。
越多資金充足、人才密集的公司進入這個方向,這條路就會被踩得越深。
我個人并不認為 VLA 和世界模型真的在競爭。它們只是從不同方向走向同一個目標:讓機器能夠在物理世界中行動。VLA 是語言優先,世界模型則是視頻和動作優先。我猜,二者最終會匯合,并共同成為解決方案的一部分。
DreamerV4:潛在世界模型 Agent。
潛空間世界模型 Agent,指的是在潛空間世界模型中訓練出來的 Agent。單看 Agent 訓練這件事,潛空間路線有一種天然的優雅。
因為潛空間世界模型運行在壓縮后的抽象空間里,Agent 的規劃和策略學習可以非常高效地發生,不需要生成像素。某種意義上,Agent 是通過“思考”來練習:就像國際象棋大師在腦中推演變化,而不需要真正移動棋子;也像清醒夢者在夢里訓練自己。
最典型的例子是 Dreamer,來自現在在 Google DeepMind 工作的 Danijar Hafner。
Dreamer 的洞察很簡潔:如果你有一個足夠好的潛空間世界模型,訓練時就完全不需要接觸真實環境。Agent 可以完全在潛空間中想象一系列動作及其后果,接收獎勵信號,然后更新自己的策略。整個過程不需要任何一次真實世界交互。當它最終進入真實環境時,它已經知道該怎么做。
Dreamer 在很多任務上都取得了顯著結果,從游戲到連續控制,再到機器人任務,靠的都是這種純粹在想象中進行的訓練。它是世界模型訓練可行性的一個研究級概念驗證:Agent 可以通過做夢學會如何在真實世界中行動。
現在,Hafner 看起來正在把這項研究商業化。3 月早些時候,The Information 報道稱,他和 Wilson Yan 正在為一家名為 Embo 的世界模型公司融資 1 億美元。這個范式看起來瞄準的是具身系統。
挑戰在于,和潛空間世界模型整體一樣,Agent 學到的行為質量,取決于潛在表征的質量。如果世界模型的抽象編碼漏掉了某些因果上重要的東西,比如決定機器人是否會打滑的地面精確紋理,或者決定一個物體能否被抓住的具體角度,Agent 就不會知道這些因素重要,因為模型壓根沒有把它們編碼進去。
垃圾進,垃圾出。只是這里的垃圾是看不見的。
前面提到的 Moonlake 混合路線,正是在試圖穿過這個針眼:用漂亮的生成式環境吸引人類玩家,收集帶動作標簽的數據;然后丟掉像素,在抽象空間中訓練 Agent。用生成式世界拿數據,用潛空間世界做學習。
這是一個有意思的賭注:兩條路線也許不是競爭關系,而是互補關系。它可能是對的。
還有一點值得注意:我們目前還沒有看到 JEPA Agent。JEPA 是一種世界模型架構,不是 Agent 架構。但我們預計 AMI Labs 會把這個閉環補上。AMI 仍在構建自己的世界模型,在其中訓練的 Agent 還沒有公開展示出來。但我們會密切關注。
SIMA 2——基于 VLM 骨干的通用具身 Agent。
2025 年 11 月,Google DeepMind 發布了 SIMA 2,全名是《一個能在虛擬世界中與你一起游戲、推理和學習的 Agent》。
SIMA 2 把 Gemini 骨干和一個在 3D 游戲環境上訓練的世界模型結合在一起。Gemini 給 Agent 提供語言理解能力,讓它能夠接收目標并推理目標;世界模型則提供時空理解能力,讓它能夠執行這些目標。在這個架構中,Gemini 扮演的角色,類似前面提到的 VLM 在許多系統中的作用。
它和 VLA 的不同,在于誰是“一等公民”。
在 VLA 中,語言是一等公民,圖像是二等公民。除了模態順序不同,訓練數據也不同:VLA 大多使用靜態圖像和文本交錯的數據。
而在配備世界模型的 Agent 中,視頻是一等公民,動作從一開始就被引入,訓練數據也直接對齊下游希望得到的行為。這個 Agent 的基礎能力是時空性的。你告訴它需要做什么,它知道如何在世界中移動并完成這件事。
SIMA 2 可以自己玩游戲。它可以學習、推理和改進。它玩得越多,就越強。不只是它已經玩過的游戲,任何游戲都會如此。它甚至能被扔進任意一個生成世界中游戲,即便此前從未見過那個世界。
Google DeepMind 認為,這是“朝著創造一種能在任何地方幫助完成任何任務的 AI 邁出的一步,包括有朝一日進入真實世界”。
Google DeepMind 已經產出了大量研究。它從多個方向推動了世界模型和具身 AI 的發展:提出了 VLA 這個術語,發布了 Genie 3,開發了 SIMA 2。它訓練 AlphaGo 的方式,也就是讓 Agent 一遍又一遍地和自己對弈,至今仍在影響世界模型的訓練方式。
General Intuition——從動作和世界模型出發的通用 Agent。
和 Google DeepMind 類似,我們也相信,通用 Agent 會在具身系統中扮演重要角色,讓機器真正做有用的事情。
路徑可以概括為:先創造夢境,再讓 Agent 在其中奔跑。讓它們玩耍、犯錯、學習、獲勝。隨后,把這些學習遷移到其他夢境中,甚至遷移到真實世界。
回到《黑客帝國》的例子。當 Neo 需要學習功夫時,他接入了一個虛擬道場,在那里和 Morpheus 對練。這個訓練環境比“真實世界”更適合學習。訓練結束后,他說:“我會功夫了。”
世界模型就是那個虛擬道場。Neo 就是 Agent。這正是 Ha 和 Schmidhuber 8 年前提出的問題:Agent 能在自己的夢中學習嗎?
在很短時間內,這個領域已經給出了答案:可以。但前提是,你擁有帶動作標簽的數據,或者能夠獲得它。
今天,我想多講一點 General Intuition 的方法,以及我們已經開始看到的一些結果。
到目前為止,前面寫到的每一種路線,最終都會撞上同一堵墻:它們需要更好的數據。視頻很多,但缺少深度。視頻沒有動作標簽。如果不知道是什么動作導致了我們看到的結果,視頻數據就像影子,像柏拉圖洞穴墻上的那些影子。
Yann LeCun 也許是對的:動作可以被推斷出來。但任何使用推斷動作的人,都必須面對另一套擴展定律,也就是推斷動作本身的擴展定律。
推斷動作會消耗算力、時間和注意力,而這些資源本可以用來做那些“理解動作之后才能做的事”。推斷動作在基準測試上也許看起來不錯,但一旦遇到邊緣案例,就會很吃力。
即便推斷得很好,推斷動作也只是對某個人真實動作的近似。有些東西在視頻里根本看不見。比如從駕駛艙視角看飛機降落時,你無法看到飛行員是否移動了方向舵。
提示一下:如果你不移動它,飛機會墜毀,這就是為什么真實標簽如此關鍵。
你必須找到一種方法,獲得帶動作標簽的數據。越接近真實標簽越好。
幸運的是,多虧 Medal,我們有了一個很好的起點。
在 General Intuition 之前,是 Medal
前面講過,游戲在 AI 發展中很重要。AlphaGo、深藍,都是有意把游戲用于 AI 的例子。
但游戲和 AI 之間,還有一條更豐富的偶然聯系史。很多時候,關鍵進展來自意外的好運。
你最可能熟悉的例子是 Nvidia。Jensen Huang 在 1993 年創辦 Nvidia,最初是為了給游戲制作實時圖形芯片。6 年后,1999 年,Nvidia 發布了第一塊“圖形處理單元”(GPU),GeForce 256。
幾年后,大約 2005 年,研究者開始嘗試把 GPU 用于神經網絡。2007 年,Nvidia 發布 CUDA,讓在 GPU 上做機器學習變得可行。2009 年,斯坦福的 3 位研究者 Rajat Raina、Anand Madhaven 和 Andrew Ng 證明,GPU 可以把深度學習中的無監督學習加速 70 到 100 倍。
![]()
圖丨GeForce 256(來源:Nvdia)
3 年后,2012 年,AlexNet 團隊用 GPU 在 ImageNet 競賽中碾壓對手。一年之內,深度學習領域幾乎所有人都轉向 GPU。當時,“深度學習領域所有人”仍然只是一個很小的群體,但在那之前,比特幣礦工已經開始使用 GPU。對比特幣的 SHA-256 哈希計算來說,GPU 比 CPU 高效 50 到 100 倍。
后來,比特幣礦工很快轉向 ASIC。但 2015 年,Vitalik Buterin 和團隊發布以太坊。以太坊的工作負載更依賴內存,沒那么容易用 ASIC 優化,于是從 2015 年起,以太坊挖礦主要依賴 GPU,并在 2020 年到 2022 年的加密貨幣熱潮中制造了 GPU 短缺。
直到以太坊從工作量證明轉向權益證明,市場上留下了一批過剩 GPU。加密貨幣最終還是崩盤了。就在加密市場見頂的同一個月,Nvidia 股價也見頂,并在隨后一年下跌 66%。直到 OpenAI 發布 ChatGPT。此后,Nvidia 市值增長了 10 倍,成為今天這個 4.4 萬億美元的巨頭。
誰能提前預測到這一切?
我 13 歲時自學逆向工程,并學會寫代碼,目的是搭建一個私人 RuneScape 服務器。當時我也沒想到,這會把我帶到今天的位置。逆向工程是推理能力的一種極致形式。小時候花很多時間做這件事,對大腦很有幫助。它也很適合訓練一個人在快速變化的世界中理解復雜系統。
RuneScape 的開發者移除了游戲里的荒野和自由交易功能。我想把它們加回來,于是學會了逆向工程。后來,這件事發展成了一門對青少年來說很不錯的生意。到 2015 年,我 18 歲,不得不關閉它時,我們每年大約能賺 150 萬美元。原因是我成年后,要為自己搭建的東西承擔法律責任。
但對我那個年紀來說,我已經賺到了足夠多的錢,可以去做自己真正感興趣的事情。19 歲時,我加入無國界醫生組織(MSF),在那里待了 3 年,從事埃博拉和人道主義地圖相關工作。之后,我在 Google Crisis Response 工作過一段時間。后來,對游戲的興趣又回來了。
當時我們在倫敦辦公,離 DeepMind 團隊很近。那是 2014 年,我并不覺得他們做的事情多有意思,也不覺得它很可能成功。現在回頭看,Demis 的遠見值得極大尊重。很少有人理解,他們走到今天有多難。
2018 年,我和之前一起搭建 RuneScape 服務器的同事重新合作,做了一款叫 Get Wrecked 的游戲。它獲得了很多注冊用戶,但玩家很快流失。原因是我們沒有足夠的玩家流動性。那是一款競技游戲,需要有足夠多、不同水平的玩家同時在線,才能讓每個人都匹配到水平相近的對手。這件事啟動起來非常難。
為了解決這個問題,我們做了一個功能,讓用戶可以在平臺上觀看游戲片段。每天幾次,我們會發推送提醒大家游戲開服了,希望能在同一時間聚集足夠多玩家。
后來,這個游戲片段平臺 Medal 在 Rocket League subreddit 上爆了。下載量增長得太快,我們幾乎立刻意識到,這才是更大的機會。于是,我們決定專注做 Medal。
那款游戲最終沒有發布。Medal 則一路增長。今天,全球玩家每年會向 Medal 上傳超過 10 億個游戲片段。
如果有意識地設計一個用于構建世界模型和策略的數據集,我們也很難設計得比這更好。
Medal 的上傳規模已經可以和 YouTube 相比。玩家每天上傳數百萬個片段,覆蓋數萬個環境,而且這些片段已經由玩家自己篩選過:他們上傳的是自己認為值得分享的內容,比如最佳表現、最離奇的遭遇、最驚險的瞬間。
Medal 數據有 YouTube 數據沒有的東西。首先,它帶有來自社交網絡的元數據,比如瀏覽量、點贊和評論。更重要的是,它帶有游戲內動作。我們只在本地機器上記錄游戲動作,而且只存儲游戲內動作名稱,比如“前進”,不會存儲實際按下了哪個鍵。
這不只是數據問題。它還讓我們做出了 Medal 用戶最需要的功能之一:鍵盤和手柄操作疊層。通過這些疊層,玩家可以展示每一個精彩瞬間背后,自己究竟做了哪些精確操作。
![]()
(來源:Not Boring)
每個片段都同時包含玩家實際看到的內容,以及隨后發生的精確玩家動作。而這些動作使用的許多系統,和我們今天控制機器人的系統是相通的。
游戲畫面還有另一個好處:信息是完整的。真實世界視頻不同,你必須考慮姿態估計,也就是估計人類當時看到了什么;這個過程本身就是有損的。在真實世界里,人可能看到了攝像頭沒有拍到的東西。但在游戲里不會。錄下來是什么,玩家看到的就是什么。我們認為,這讓游戲數據成為更好的訓練材料。
這給了我們數萬億個例子,展示玩家如何運行“觀察、預測、行動”這個循環。這是智能的基礎,而且整個過程中沒有信息損失。
關于數據
要理解我們在做什么,首先要區分游戲數據和合成數據。
很多混亂來自一個誤解:人們常把“數字的”等同于“合成的”。但真正的區別,不在于數據生成于什么環境,而在于數據本身是什么。
物理世界中也可以產生合成數據,也就是生成出來的數據。比如 Boston Dynamics 和其他機器人公司,會在人工搭建的環境中訓練機器人。反過來,數字世界中也可以有人類真實標簽數據。
我們的游戲數據之所以是“數字環境中的人類真實標簽數據”,是因為它捕捉到的是真實人類在“觀察、預測、行動”循環中的反應。
![]()
(來源:Not Boring)
最接近我們方法的類比,是 GitHub 數據。GitHub 捕捉了人類工程師寫代碼的歷史,并被用來訓練出比人類更會寫代碼的機器。問題是,同樣的想法能不能在計算機之外成立。
我們相信,并且已經看到一些跡象:從游戲數據中學到的東西,可以遷移到物理世界。
事實證明,游戲是學習智能的理想訓練場。游戲包含成千上萬個模擬世界,里面有物理、策略、合作、文本、界面使用、競爭,以及長時間跨度規劃。它們復雜到需要直覺,又足夠結構化,可以在大規模上學習。
僅靠物理世界數據,無法達到學習通用智能所需的多樣性和規模。大語言模型則缺少關于動態和原子的真實數據。游戲剛好處在中間,成為數字世界的比特和物理世界的原子之間的一座橋。
當然,“真實標簽”這條路線也面臨一個挑戰。前面提到過 Yann LeCun 的觀點:如果你足夠擅長推斷動作,那么每一段視頻都可以變成帶動作標簽的數據。
長期來看,這也許是對的。但在今天,它大概率極其不實用。這也是 Yann 讓人佩服的地方:幾乎沒有別人會這樣思考問題。去年 12 月,我和 Yann 在巴黎聊過這個困境,如果你想繼續深入,可以去看那次討論。
歸根結底,一切都是權衡。
未來最優路徑,很可能位于兩端之間:一端是今天 VLA 所在的位置,最實用但最不優雅;另一端是 AMI 未來可能抵達的位置,如果一切進展順利的話。最終,關鍵還是你如何看待數據。
對任何想解決具身 AI 的公司來說,數據都是核心問題。Evan 和 Packy 在《機器人的許多小步》(Many Small Steps for Robots)中寫過這一點,這也是 General Intuition 目前最關注的事情。
我們相信,我們的數據集是通用模型數據問題最優雅的答案。它為一種熟悉的通用智能鋪出路徑:就像特斯拉 FSD 給人的感覺像一個熟悉的司機,但這條路徑的規模會遠遠超出游戲或駕駛。
對于通用模型,也就是那些能夠在幾乎任何可想象真實場景中,直覺式、自發式驅動具身 AI 的模型來說,問題不只是你能拿到多少數據。
在把更多數據扔給問題之前,你必須先理解自己的遷移曲線。
小步、大躍和遷移曲線
在之前那篇機器人文章里,Packy 和 Evan 寫過,構建具備經濟可行性的具身 AI,有兩種方法:小步,或者大躍。
Evan 和他的公司 Standard Bots 走的是“小步”路線:在真實場景中邊部署、邊學習,一個用例一個用例推進,而且客戶會為這些部署付費。他們正在越來越多有經濟價值的用例中收集真實世界數據,覆蓋許多不同領域。
這個策略很有意思。Standard Bots 讓來自不同行業、不同任務的客戶為機器人部署付費,由此收集覆蓋廣泛分布的真實世界數據。它并不是希望在一個狹窄領域里堆更多數據,然后期待模型自然泛化到分布外任務;它的目標是在真實世界中橫向鋪開,把大量有用任務都納入分布內,而不是在一個細分場景里縱向挖深。
General Intuition 和 Standard Bots 是從光譜兩端切入同一個問題。
![]()
(來源:Not Boring)
General Intuition 試圖從數字側解決泛化:我們的賭注是,游戲數據會帶來關于物理和動作的廣泛先驗。Standard Bots 則試圖從物理側解決泛化:它的賭注是,真實世界部署會帶來關于操作和工業任務的廣泛先驗。
面對數據多樣性問題,這兩條路線其實是互補的。General Intuition 的世界模型,有可能成為 Standard Bots 后訓練的起點。我們提供一個在數字環境觀察數據上訓練出來的基礎模型,這類數據可以規模化、低成本收集;Standard Bots 再用自己有償收集到的特定用例數據進行后訓練,把這些用例拉進分布內,更快達到多個 9 的可靠性。
我們認為更有挑戰的,是一些通用模型路線似乎正在采取的方法:收集大量數據,然后希望模型自然泛化到分布外任務。但通用模型需要覆蓋太多場景、太多情況,無法全部靠付費讓人演示任務來收集。
此外,同一領域里的更多數據,并不會自動教會模型處理從未見過的情況。在預訓練階段,并不是所有數據都同樣有價值。我還沒有見過哪位構建通用機器人模型的人,能拿出擴展定律證明:只要繼續加數據,就能解決分布外用例,也就是訓練中沒有出現過的那些情況。一個狹窄領域里的更多數據,不會自動買來對新領域的泛化能力。這樣的擴展定律并不存在。
據我們目前理解,有三條不同的遷移曲線,會決定世界模型能否泛化到新的物理環境。它們目前還沒有被充分理解,我們也只是剛開始理解。但至少可以先給它們命名:輸入模態遷移、傳感器遷移和環境遷移。
第一條是輸入模態遷移:一個策略能在多大程度上,跨越被控制物理系統的不同自由度進行泛化?
對于一個擁有 20 到 60 個自由度的人形機器人來說,這條曲線非常陡。每個自由度都是連續的,而且常常在機械結構上彼此依賴。手指運動并不獨立于手臂運動。因此,如果你用游戲手柄訓練模型,卻期待它能干凈地遷移到一只 20 自由度的人形手上,從研究角度看,這就是一個缺少擴展定律支撐的賭注。
第二條是傳感器遷移:如果工作負載需要專門的物理傳感器,比如觸覺反饋、本體感受、深度信息,那么在模型能夠可靠推理這些傳感器數據之前,你需要多少這種傳感器專用數據?這背后也有一條獨立的擴展規律。
特斯拉明確處理過這個問題。它花了很多年弄清楚,在完全放棄 LiDAR 傳感器之前,到底需要多少 LiDAR 數據。多數機器人公司也在隱式處理這個問題,只是希望答案能在部署過程中自己浮現出來。
第三條是環境遷移:當環境變得更復雜、更隨機、或者有更多人參與時,模型表現會如何下降?
在一個身邊有 1,000 個人的體育場里預測正確動作,和在一片空曠場地上預測正確動作,根本不是同一個難度的問題。
正如前面解釋過的,復雜度不是線性增長的。
這三條曲線會相互作用。在你能畫出它們之前,就無法知道自己到底需要多少、哪種類型的數據。也就無法證明,大規模投入資本去收集這些數據是合理的。
今天有些公司正在收集 10 萬小時物理世界數據。它們未來可能會發現,一個好的世界模型其實只需要 1 萬小時;也可能會發現,10 萬小時確實需要,但其中 9 萬小時完全落在了錯誤分布里。
我們的賭注,當然也和我們的起點有關,是把這個問題壓縮到更可處理的范圍。
通過聚焦游戲控制器輸入,我們把輸入模態遷移簡化成了一條已經解決的曲線。我們知道自己有足夠多的游戲控制器數據,因為我們擁有數十億個人類使用控制器的游戲片段。這消除了一個未知數。
通過聚焦基于視覺的輸入,而不是專用傳感器,我們又消除了第二個未知數。
幾乎每個物理系統都有一種類似游戲控制器的輸入模態,包括方向盤、鍵盤鼠標,以及真正的游戲手柄。大多數都很直接。即便人形機器人通常也配有這類接口。挑戰只在于,如果自由度超過控制器能夠表達的范圍,遷移效果就會變差。因此,人形機器人在我們的路線圖中更靠后。但我們看不到任何物理限制,說明不能圍繞接口限制來構建系統。
簡而言之:如果你可以用游戲控制器控制幾乎任何物理系統,而我們又擁有世界上最多的“玩家使用控制器采取行動后會發生什么”的數據,那么我們的 Agent 理論上就應該能夠控制幾乎任何物理系統。
剩下的唯一問題,是環境遷移:在夢中訓練出來的 Agent,能不能在現實中工作?
世界模型的超人類未來
過去幾周,General Intuition 在紐約和日內瓦的辦公室里發生了很多讓人興奮的事。
本文前面寫到的許多東西,實際效果都比我們預期更好。和其他人一樣,我們越來越相信:在夢中訓練出來的 Agent,可以在現實中行動。
為什么世界模型能夠遷移?
“觀察、預測、行動”這個循環,本質上是對因果結構系統如何運作的一種抽象。一旦一個世界模型通過多樣化的游戲,看到了 N 種世界變體,那么它只需要少量微調,就有可能理解第 N+1 種變體的動態,而這個變體就可能對應真實世界。
世界模型學習的是現實中的因果關系。如果這種因果關系能在足夠基礎的層面被理解,世界模型就應該能夠泛化到新場景。
這會意味著什么?能夠泛化的世界模型,會帶來什么影響?
我們的目標,是讓具身 AI 理解世界,讓我們的模型能夠在任何環境中控制機器,包括真實世界。我們希望為機器人帶來一個突破時刻:進展突然變得顯而易見,模型也變得足夠好用。
這個突破不會像大語言模型的突破那樣發生。大語言模型之所以走向主流,是因為它們開始像人類一樣和我們對話。但我們并不希望機器只是做人類已經會做的事。機器真正的意義,是去做人類做不到的事,給我們新的能力。
機器人不需要長得像人,才能為人工作。人形機器人之所以被視為一種重要形態,很大程度上是基于一個假設:互聯網上有大量人類視頻,因此人形機器人擁有最多可學習的數據。畢竟,人類拍下的視頻里,最多的就是人類自己。
但如果你不再需要這些視頻呢?如果你可以直接從電子游戲中跨越不同具身形態的動作里學習,而且只需要少得多的數據就能遷移到現實呢?那么這個假設就不成立了。
我們認為,機器人的未來應該由更簡單、更便宜的系統來塑造:機器只需要擁有完成實際任務所需的自由度。
人體是一個不可思議的通用平臺,但面對任何具體任務,它很少是最優形態,也很少是成本最低的形態。與其復制人類的身體結構,不如復制我們已經本能使用的接口:操縱桿、方向盤、游戲手柄和鍵盤。
這些工具是幾十年迭代的產物。它們把人類意圖壓縮進一個干凈、通用的動作空間,就像語言把思想壓縮成文字一樣。機器人可以從這些接口傳遞出的動作中學習,并圍繞它們進行專門化。相比追求人類完整身體形態,這會讓大規模部署變得現實得多。
一旦擺脫“機器必須像我們,也必須以某種方式取代我們”的假設,新的可能性就會打開。
在 General Intuition,我們正在積極研究模擬系統。最終,這些系統將讓我們的模型超越今天所有由像素描述的東西,走向一切受因果關系支配的系統。我們使用的方法非常通用。這個目標還很遠,但它是必要的一步。
要真正理解我們的世界,也許我們最終需要的,正是世界模型:一種計算不可計算之物的計算方式。
這一切的含義非常深遠。如果我們能夠建模三維空間、物理和時間,以及它們之間的相互作用,那么無論在宏觀尺度還是微觀尺度上,以超越人類的能力操縱這些領域,都將變得可以想象。
前面還有大量工作。今天,還沒有人能夠模擬一個生物細胞,更不用說模擬一個由 10^30 個細胞組成的生態系統。
但真正吸引我的是:我們并不需要映射現實中的每一個細節。我們只需要觀察這些細節如何體現在動作中,再利用這些動作預測接下來會發生什么,如此反復。
構建這些模型也意味著巨大的責任。這件事對我來說非常嚴肅,也非常個人。
![]()
(來源:Not Boring)
我屬于最容易受到 AI 替代沖擊的一代人。我的童年朋友里,有一半找不到工作。我花了很多時間思考,如何讓我的社區、我的這一代人,一起參與這場變化,而不是被它甩在后面。
比如,Medal 和特斯拉一樣,坐擁一套龐大的全球硬件基礎設施:GPU、CPU,接入電力,有散熱系統,由超過 1,500 萬用戶驅動。這套基礎設施的價值超過 100 億美元。
我們正在積極探索,讓社區參與即將到來的變化,并從中受益。比如,讓用戶用自己的 GPU 提供推理服務來獲得收入;或者讓他們通過自己的游戲設備進行遙操作。
如果通用智能的需求接近我們的判斷,這可能會成為我們這一代人見過的最大經濟順風。
現在,這些還只是我的夢想。
但總有一天,它們不會再只是夢想。總有一天,我們會把無聊的問題交給超級智能,讓自己可以通過游戲設備探索星空或深海,再去想象下一個只有人類才會覺得有趣、真正不無聊的事情。
參考資料:
https://www.notboring.co/p/world-models#footnote-3-191268033
運營/排版:何晨龍
注:封面/首圖由 AI 輔助生成
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.