“什么是真實?你怎么定義真實?”這是電影《黑客帝國》里一句發人深省的追問。
2026年,關于世界模型的熱潮,正在經歷一個相似的時刻——定義與共識。
2026年,圖靈獎得主楊立昆(Yann LeCun)與謝賽寧聯合創立的AMI Labs,完成超10億美元融資;李飛飛的World Labs同樣拿到數億美元融資;英偉達正式推出Cosmos平臺;智源研究院在智源大會上發布悟界Physis v0.1??
全球頂尖資本與頂尖大腦一擁而上,但有一個問題尚未等到答案:當我們談論世界模型時,我們在談論什么?
李飛飛與World Labs團隊發表了一篇文章,指出當前業界談論世界模型時存在嚴重的概念混淆:一個能生成絢麗但物理上不可能的火焰的視頻模型、一個即興創作可玩游戲的語言模型、一個能準確模擬燃燒過程的物理引擎,都在使用這同一個名詞。
近日,智源研究院院長王仲遠坦言:“世界模型的定義到底是什么,大家還沒有達成共識。”形成共識,路線方能收斂。在一個融資熱度高達數十億美元的賽道里,共識是一個必須回答的大前提。
“通用”是最根本的驅動力
李飛飛團隊關于世界模型概念的文章,再度引發行業對于世界模型定義的熱議。與此同時,在近期剛剛結束的智源大會上,智源研究院也表態,要為世界模型“正本清源”。
世界模型并不是一個新概念。它的出現可以追溯到1943年,心理學家最早提出了相關判斷;2018年,這一概念擴展至智能世界,一篇題為《World Models》的論文引發了學術熱潮。
如今這波世界模型熱潮的起點,與Sora的誕生密切相關。
2024年春節,Sora橫空出世,OpenAI彼時介紹Sora是“World Simulator”(世界模擬器),以此為標志,世界模型受到了更廣泛的關注。
![]()
圖片來源:AI
在Sora生成的視頻里,液體在流動,光影在變化,模型根據視頻數據摸索出了某些物理世界的規律,通過上一幀推測猜出下一幀,隨著猜對的比例越來越高,它看似越來越懂得物理世界。
李飛飛的文章里用了一個詞描述這類模型的本質:渲染器(Renderer)。她認為,渲染器優化的是視覺可信度,不是物理準確性。“它們的輸出很美,但你無法信任它們去設計一棟建筑或訓練一個機器人。”
具身智能的熱潮則為世界模型添了一把猛火。
在很長一段時間里,VLA(視覺—語言—動作模型)被視為具身智能模型突破的核心路徑,但因高度依賴成本高昂且產出極低的真實成功動作數據,并且無法直接利用海量缺乏動作標注的互聯網視頻,其面臨嚴重的數據瓶頸。
世界模型提供了新的利用數據的方法,它的訓練目標不是模仿正確動作,而是理解動作和結果之間的因果關系。在這個邏輯下,失敗軌跡、無標注視頻在世界模型的框架里都變成有價值的訓練素材。
機器人嘗試把一個杯子從桌上拿起來,手指位置偏了,杯子倒了。這段錄像在VLA訓練體系里可能是廢品,但在世界模型的框架里,失敗本身變成了信息。
智源研究院理事長黃鐵軍解釋了為什么這一次的熱潮和上一次不同:“現有VLA技術,在制造或抓取等特定場景完成任務是可以的。但我們希望具身智能是通用的,像人一樣,在任何一個場景下遇到不同的問題都可以去解決,這樣的模型現在還沒有。”
通用,是這場熱潮最深處的驅動力。
理想、視覺與閉環:世界模型路在何方?
熱情一致,路線分歧,甚至彼此沖突。對于世界模型學什么、用什么方法學,當前業界有幾條主流的路徑。
楊立昆的JEPA(聯合嵌入預測架構)是其中一條代表路徑。它追求幾何和動力學上的準確性,而非視覺可信度,認為視頻里大量的像素信息是不可預測且無意義的,一段視頻中可能包含大量的冗余信息,把模型容量浪費在學習這些統計噪聲上,是資源浪費。
但問題在于,不生成可視化輸出,很難直觀判斷模型究竟理解了什么,模型對物理世界的理解可能會“變形”。
另一條代表路徑是由視頻生成模型逐步邁向世界模型,它的核心主張是,如果一個模型能夠生成足夠準確的下一幀視頻,它就已經學到了世界運行的某種規律。
清華大學計算機系教授朱軍認為,和世界最相關的數據就是視頻數據,它是最容易、最方便而且記錄量最大的關于世界的數據。
但矛盾在于,視頻生成的目標和動作生成的目標是不同的。視頻生成越好,不代表動作預測越好,反之亦然。視覺可信度和物理準確性之間,有一道還沒有被彌合的鴻溝。
王仲遠舉例說明:視頻生成模型可以生成一群豬在天上和飛機一起飛,“因為視頻生成模型采用大量科幻電影訓練,目標本身就不是為了真實物理世界基座模型,只是通過大量視頻學習能夠捕捉到一定的世界知識”。
第三條路徑認為,預測必須參與改變動作,閉環才有價值,這也暗含著“性價比”也是考量因素。
星源智聯合創始人孫振國的邏輯是,如果世界模型只是作為旁路的訓練約束,訓練開銷可能遠超性能提升,“還不如探索VLA這種更高效的范式。”他希望達成世界模型參與改變動作本身:機器人即將執行一個動作時,先在內部模擬這個動作的后果,如果預測結果不理想,修正動作,再模擬,再修正,直到滿意再執行,最終可以變成一個自進化的智能體。
數據是最誠實的“天花板”
以上所有路線都要面臨同一個問題——數據。
視頻數據和語言數據之間有一個無法靠堆量解決的不對稱問題:語言本身是一種高度濃縮的信息載體,但在視頻中,絕大部分像素是背景、與物理因果無關的細節。用視頻數據訓練世界模型,意味著模型需要在數百萬像素里挑出真正有用的信息。
![]()
圖片來源:每經媒資庫
此外,物理理解不是靠觀察就能學會的,它來自干預——真實世界的物理規律發生在人類和物體之間的交互中,一個孩子知道玻璃杯摔在地上會碎,不只是因為他看過,更是因為他可能失手摔過,感受過力的傳導,聽過聲音,看過碎片的飛濺方向。
Skywork首席科學家劉揚描述了視覺信息的一個具體盲區:“我把一個杯子從桌子上拿起來,這個杯子有沒有粘在桌子上導致我拿不起來?這個杯子里面的水到底是開水、溫水還是冷水,視覺信息都沒有辦法去表達。”
智象未來創始人梅濤此前向《每日經濟新聞》記者描述了他們正在走的路,即以少量真實操作數據為種子,用視頻大模型進行數據增廣,同樣一段操作,生成在不同背景、不同光照、不同物體顏色下的大量變體,用于模型訓練。
但同時也要注意,因為人類掌握的物理知識不夠完備,仿真始終存在缺陷。
黃鐵軍認為,要改變采集數據的方式本身,而不是在現有方式上堆量。他表示,世界模型階段需要在線的、實時的數據,讓采集寄生在真實生產生活上。比如,工人正常作業時佩戴傳感設備,數據自然產生,采集成本會大幅下降。
同時,當前數據處理方式是低效的,原因在于所有像素被平等處理。人類視覺系統高效,是因為有選擇性注意力。“在晚上什么都看不見,突然有光一閃,人眼是可以捕捉到的,而且這時候觸發的只是一個神經元,引發一系列響應,計算量和消耗的能量極低。”黃鐵軍表示。
王仲遠畫了一個時間尺度更長的框架。他說,真正催生跨時代世界模型的,可能要等到物理世界的互聯網出現,就像數字世界的互聯網積累了海量文字數據,催生了大語言模型,將來隨著AI硬件越來越多、持續采集大量真實物理世界數據,才有可能形成同等規模的物理數據基礎。
而這個基礎,今天還不存在。
世界模型仍在經歷“盲人摸象”
“現在仍處于世界模型的早期,所有世界模型領域奪冠的模型都還不是未來真正的世界模型。”智源當前對于世界模型做出了四個分類:以語言為中心的世界模型;以像素為中心的世界模型,即視頻生成;以三維結構為中心的世界模型,包括3D重建;以視覺表征為軸心的世界模型。
但王仲遠指出,四類模型距離真正面向物理世界的基座模型都有很大的距離。
世界模型離我們究竟還有多遠?各方給出的時間判斷差距之大,本身就說明了這個領域的真實狀態。
銀河通用創始人王鶴的預測最樂觀,但他針對的是一個非常具體的目標,他認為WAM(World Action Model,世界行動模型)打開數據來源約束之后,具身智能里的核心操作任務將在兩年內達到關鍵里程碑,但前提條件是:行業需要千萬小時的高質量數據,以及百億元級的資金投入,才能成為沖刺的入場券。
黃鐵軍把目標降到更加具體的層次:“未來兩三年,能跟人日常工作相比的這樣一個世界模型,是有可能出來的。”他解釋了這句話的含義:做物理性工作的人的常識性能力,不是科學家的水平,只是在日常生活場景里做出合理物理判斷和動作的系統。
王仲遠的判斷是至少還需要好幾年,“很可能卡在一個地方三五年都沒有突破,也有可能突然就突破了”。
他同時給出了一個具體的能力標準:一個3歲小朋友正在睡覺,廚房聲音很大,家人只要揮一下手,大家就知道應該關門。這種基于當前物理狀態、不需要語言的直覺式預測和決策,是基本能力門檻。
在連評測標準都沒有共識的領域里,時間表本身就是一個沒有統一參照系的數字。王仲遠也談到了這一點:“世界模型目前缺乏非常嚴謹的評測框架和體系。現在很多世界模型的評測都是以視頻生成評測為重點,但不代表完整的未來世界模型作為基座模型的核心能力。”目前智源正在構建世界模型的評測基準,核心問題只有一個:能否對下一個物理狀態做出正確預測。
黃鐵軍用“盲人摸象”來描述世界模型現在的狀態:“現在各類視覺模型都是在往一個真正的世界模型靠近的過程,可能都抓住了其中某一個方面的特征,但又沒有(抓住)全部,就跟盲人摸象一樣,摸著耳朵說是大象,摸著腿也說是大象。”
不過,在盲人摸象的故事里,大象是確定存在的,只需要把各部分拼在一起。世界模型的問題則在于,完整的大象究竟是什么樣子,目前沒有人真正見過,也沒有一套公認的方法驗證你是否已經摸到了它。
朱軍的一句話,或許道出了這個領域某種更深的困境:在復雜的、開放的場景里,很多時候我們并沒有清晰或單一的目標,可能優化的是一個多維度的東西。
如何把適應物理世界這件事寫成一個可優化的目標函數,本身就是一個沒有被解決的根本問題。
在描述世界表象與理解世界本質之間,是世界模型仍在攀爬的距離。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.