網易首頁 > 網易號 > 正文申請入駐

盲人摸象但真象無形，資本競逐世界模型：熱潮、分歧與未竟之路

2026-06-22 19:15:44　來源: 每日經濟新聞

四川舉報

分享至

“什么是真實？你怎么定義真實？”這是電影《黑客帝國》里一句發人深省的追問。

2026年，關于世界模型的熱潮，正在經歷一個相似的時刻——定義與共識。

2026年，圖靈獎得主楊立昆（Yann LeCun）與謝賽寧聯合創立的AMI Labs，完成超10億美元融資；李飛飛的World Labs同樣拿到數億美元融資；英偉達正式推出Cosmos平臺；智源研究院在智源大會上發布悟界Physis v0.1??

全球頂尖資本與頂尖大腦一擁而上，但有一個問題尚未等到答案：當我們談論世界模型時，我們在談論什么？

李飛飛與World Labs團隊發表了一篇文章，指出當前業界談論世界模型時存在嚴重的概念混淆：一個能生成絢麗但物理上不可能的火焰的視頻模型、一個即興創作可玩游戲的語言模型、一個能準確模擬燃燒過程的物理引擎，都在使用這同一個名詞。

近日，智源研究院院長王仲遠坦言：“世界模型的定義到底是什么，大家還沒有達成共識。”形成共識，路線方能收斂。在一個融資熱度高達數十億美元的賽道里，共識是一個必須回答的大前提。

“通用”是最根本的驅動力

李飛飛團隊關于世界模型概念的文章，再度引發行業對于世界模型定義的熱議。與此同時，在近期剛剛結束的智源大會上，智源研究院也表態，要為世界模型“正本清源”。

世界模型并不是一個新概念。它的出現可以追溯到1943年，心理學家最早提出了相關判斷；2018年，這一概念擴展至智能世界，一篇題為《World Models》的論文引發了學術熱潮。

如今這波世界模型熱潮的起點，與Sora的誕生密切相關。

2024年春節，Sora橫空出世，OpenAI彼時介紹Sora是“World Simulator”（世界模擬器），以此為標志，世界模型受到了更廣泛的關注。

圖片來源：AI

在Sora生成的視頻里，液體在流動，光影在變化，模型根據視頻數據摸索出了某些物理世界的規律，通過上一幀推測猜出下一幀，隨著猜對的比例越來越高，它看似越來越懂得物理世界。

李飛飛的文章里用了一個詞描述這類模型的本質：渲染器（Renderer）。她認為，渲染器優化的是視覺可信度，不是物理準確性。“它們的輸出很美，但你無法信任它們去設計一棟建筑或訓練一個機器人。”

具身智能的熱潮則為世界模型添了一把猛火。

在很長一段時間里，VLA（視覺—語言—動作模型）被視為具身智能模型突破的核心路徑，但因高度依賴成本高昂且產出極低的真實成功動作數據，并且無法直接利用海量缺乏動作標注的互聯網視頻，其面臨嚴重的數據瓶頸。

世界模型提供了新的利用數據的方法，它的訓練目標不是模仿正確動作，而是理解動作和結果之間的因果關系。在這個邏輯下，失敗軌跡、無標注視頻在世界模型的框架里都變成有價值的訓練素材。

機器人嘗試把一個杯子從桌上拿起來，手指位置偏了，杯子倒了。這段錄像在VLA訓練體系里可能是廢品，但在世界模型的框架里，失敗本身變成了信息。

智源研究院理事長黃鐵軍解釋了為什么這一次的熱潮和上一次不同：“現有VLA技術，在制造或抓取等特定場景完成任務是可以的。但我們希望具身智能是通用的，像人一樣，在任何一個場景下遇到不同的問題都可以去解決，這樣的模型現在還沒有。”

通用，是這場熱潮最深處的驅動力。

理想、視覺與閉環：世界模型路在何方？

熱情一致，路線分歧，甚至彼此沖突。對于世界模型學什么、用什么方法學，當前業界有幾條主流的路徑。

楊立昆的JEPA（聯合嵌入預測架構）是其中一條代表路徑。它追求幾何和動力學上的準確性，而非視覺可信度，認為視頻里大量的像素信息是不可預測且無意義的，一段視頻中可能包含大量的冗余信息，把模型容量浪費在學習這些統計噪聲上，是資源浪費。

但問題在于，不生成可視化輸出，很難直觀判斷模型究竟理解了什么，模型對物理世界的理解可能會“變形”。

另一條代表路徑是由視頻生成模型逐步邁向世界模型，它的核心主張是，如果一個模型能夠生成足夠準確的下一幀視頻，它就已經學到了世界運行的某種規律。

清華大學計算機系教授朱軍認為，和世界最相關的數據就是視頻數據，它是最容易、最方便而且記錄量最大的關于世界的數據。

但矛盾在于，視頻生成的目標和動作生成的目標是不同的。視頻生成越好，不代表動作預測越好，反之亦然。視覺可信度和物理準確性之間，有一道還沒有被彌合的鴻溝。

王仲遠舉例說明：視頻生成模型可以生成一群豬在天上和飛機一起飛，“因為視頻生成模型采用大量科幻電影訓練，目標本身就不是為了真實物理世界基座模型，只是通過大量視頻學習能夠捕捉到一定的世界知識”。

第三條路徑認為，預測必須參與改變動作，閉環才有價值，這也暗含著“性價比”也是考量因素。

星源智聯合創始人孫振國的邏輯是，如果世界模型只是作為旁路的訓練約束，訓練開銷可能遠超性能提升，“還不如探索VLA這種更高效的范式。”他希望達成世界模型參與改變動作本身：機器人即將執行一個動作時，先在內部模擬這個動作的后果，如果預測結果不理想，修正動作，再模擬，再修正，直到滿意再執行，最終可以變成一個自進化的智能體。

數據是最誠實的“天花板”

以上所有路線都要面臨同一個問題——數據。

視頻數據和語言數據之間有一個無法靠堆量解決的不對稱問題：語言本身是一種高度濃縮的信息載體，但在視頻中，絕大部分像素是背景、與物理因果無關的細節。用視頻數據訓練世界模型，意味著模型需要在數百萬像素里挑出真正有用的信息。

圖片來源：每經媒資庫

此外，物理理解不是靠觀察就能學會的，它來自干預——真實世界的物理規律發生在人類和物體之間的交互中，一個孩子知道玻璃杯摔在地上會碎，不只是因為他看過，更是因為他可能失手摔過，感受過力的傳導，聽過聲音，看過碎片的飛濺方向。

Skywork首席科學家劉揚描述了視覺信息的一個具體盲區：“我把一個杯子從桌子上拿起來，這個杯子有沒有粘在桌子上導致我拿不起來？這個杯子里面的水到底是開水、溫水還是冷水，視覺信息都沒有辦法去表達。”

智象未來創始人梅濤此前向《每日經濟新聞》記者描述了他們正在走的路，即以少量真實操作數據為種子，用視頻大模型進行數據增廣，同樣一段操作，生成在不同背景、不同光照、不同物體顏色下的大量變體，用于模型訓練。

但同時也要注意，因為人類掌握的物理知識不夠完備，仿真始終存在缺陷。

黃鐵軍認為，要改變采集數據的方式本身，而不是在現有方式上堆量。他表示，世界模型階段需要在線的、實時的數據，讓采集寄生在真實生產生活上。比如，工人正常作業時佩戴傳感設備，數據自然產生，采集成本會大幅下降。

同時，當前數據處理方式是低效的，原因在于所有像素被平等處理。人類視覺系統高效，是因為有選擇性注意力。“在晚上什么都看不見，突然有光一閃，人眼是可以捕捉到的，而且這時候觸發的只是一個神經元，引發一系列響應，計算量和消耗的能量極低。”黃鐵軍表示。

王仲遠畫了一個時間尺度更長的框架。他說，真正催生跨時代世界模型的，可能要等到物理世界的互聯網出現，就像數字世界的互聯網積累了海量文字數據，催生了大語言模型，將來隨著AI硬件越來越多、持續采集大量真實物理世界數據，才有可能形成同等規模的物理數據基礎。

而這個基礎，今天還不存在。

世界模型仍在經歷“盲人摸象”

“現在仍處于世界模型的早期，所有世界模型領域奪冠的模型都還不是未來真正的世界模型。”智源當前對于世界模型做出了四個分類：以語言為中心的世界模型；以像素為中心的世界模型，即視頻生成；以三維結構為中心的世界模型，包括3D重建；以視覺表征為軸心的世界模型。

但王仲遠指出，四類模型距離真正面向物理世界的基座模型都有很大的距離。

世界模型離我們究竟還有多遠？各方給出的時間判斷差距之大，本身就說明了這個領域的真實狀態。

銀河通用創始人王鶴的預測最樂觀，但他針對的是一個非常具體的目標，他認為WAM（World Action Model，世界行動模型）打開數據來源約束之后，具身智能里的核心操作任務將在兩年內達到關鍵里程碑，但前提條件是：行業需要千萬小時的高質量數據，以及百億元級的資金投入，才能成為沖刺的入場券。

黃鐵軍把目標降到更加具體的層次：“未來兩三年，能跟人日常工作相比的這樣一個世界模型，是有可能出來的。”他解釋了這句話的含義：做物理性工作的人的常識性能力，不是科學家的水平，只是在日常生活場景里做出合理物理判斷和動作的系統。

王仲遠的判斷是至少還需要好幾年，“很可能卡在一個地方三五年都沒有突破，也有可能突然就突破了”。

他同時給出了一個具體的能力標準：一個3歲小朋友正在睡覺，廚房聲音很大，家人只要揮一下手，大家就知道應該關門。這種基于當前物理狀態、不需要語言的直覺式預測和決策，是基本能力門檻。

在連評測標準都沒有共識的領域里，時間表本身就是一個沒有統一參照系的數字。王仲遠也談到了這一點：“世界模型目前缺乏非常嚴謹的評測框架和體系。現在很多世界模型的評測都是以視頻生成評測為重點，但不代表完整的未來世界模型作為基座模型的核心能力。”目前智源正在構建世界模型的評測基準，核心問題只有一個：能否對下一個物理狀態做出正確預測。

黃鐵軍用“盲人摸象”來描述世界模型現在的狀態：“現在各類視覺模型都是在往一個真正的世界模型靠近的過程，可能都抓住了其中某一個方面的特征，但又沒有（抓住）全部，就跟盲人摸象一樣，摸著耳朵說是大象，摸著腿也說是大象。”

不過，在盲人摸象的故事里，大象是確定存在的，只需要把各部分拼在一起。世界模型的問題則在于，完整的大象究竟是什么樣子，目前沒有人真正見過，也沒有一套公認的方法驗證你是否已經摸到了它。

朱軍的一句話，或許道出了這個領域某種更深的困境：在復雜的、開放的場景里，很多時候我們并沒有清晰或單一的目標，可能優化的是一個多維度的東西。

如何把適應物理世界這件事寫成一個可優化的目標函數，本身就是一個沒有被解決的根本問題。

在描述世界表象與理解世界本質之間，是世界模型仍在攀爬的距離。

聲明：包含AI生成內容

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.