作者 | 邱曉芬
編輯 | 袁斯來
過去幾個月,“世界模型”(World Model)從學術黑話迅速膨脹成AI和機器人行業里的關鍵詞。
行業的目光轉向背后是切實的焦慮。
一方面,經過了過去兩年的野蠻生長,具身智能暴露了當前AI在物理世界中的短板——機器人能識別物體,卻不懂“推杯子會掉”;能聽懂指令,卻無法預判“擰瓶蓋需要多大的力”。世界模型正是試圖補上這個短板,讓機器人學會物理世界的規律、因果。
也就是說,世界模型與具身智能的關系,本質上是“大腦”與“身體”的關系。
另一面,大模型在經歷了大語言、視覺模型、多模態的探索之后,需要從虛擬走向真實世界的下一階段。
只是,當資本、技術專家、產業資源都傾注于此,世界模型到底如何上岸,人們沒有答案。
在智源研究院院長王仲遠看來,眼下全球圍繞世界模型的探索,正被撕扯成四條截然不同的分岔路——
第一類是以語言為中心的世界模型,包括VLM、VLA,模型在文本空間中預測下一個詞,學到的是語言描述的世界,并不能理解背后的物理后果;
第二類是以像素為中心的世界模型,像Sora和Seedance等視頻生成類模型,在視覺空間中學習視頻或圖像,學到的是像素描述的世界;
第三類是以三維結構為中心的世界模型,包括3D重建以及李飛飛團隊的World Labs Marble模型,不過模型重建3D空間不等于理解世界,幾何結構也不代表物理狀態;
第四類是以視覺表征為中心的世界模型,比如楊立昆的JEPA系列模型,預測的是視覺表征的壓縮,但視覺嵌入演化不等于物理規律演化。
![]()
智源研究院院長王仲遠(圖源/企業)
作為一家非營利性科研機構,北京智源人工智能研究院同樣也是目前國內世界模型領域的中堅力量。
不同的是,智源研究院目前嘗試的確是第五個分類——以語言和視覺為中心,融合進統一的「潛空間表征」:所有模態被壓縮進同一個潛空間(latent space)仲,再由不同的"解碼器”(Decoder),按需還原成不同輸出形態。
舉個例子,這個“潛空間”就像給機器人大腦準備了一張“萬能草稿紙”,不管是看到的視頻畫面、聽到的文字指令,統統先在“紙”上壓縮成一種只有AI能懂的“密語筆記”,等需要時,機器人將會根據同一份筆記,畫出接下來的場景,演出機器人的動作,或者算出物體的位置和力度。
在邁向世界模型進的前幾年,智源研究院在AI上的動作,就像是一部層層遞進的"連續劇",一步步構建從數字世界走向物理世界的通用基座——
從早年的"悟道"大模型,智源研究院將國內大模型敘事從0推到公共視野,再到逐漸把競爭點引導向原生多模態統一架構(包括悟界·Emu3/悟界·Emu3.5),此后,智源研究院明確提出要向“下一狀態預測(NSP)”躍遷,并將這套邏輯接入悟·Physis和悟界·RoboBrain Orca的可部署系統中。
在這段期間,智譜AI、月之暗面、面壁智能、銀河通用等多家行業頭部企業的核心創始人唐杰、楊植麟、劉知遠、王鶴等,也都均在智源開展過相關領域研究。
盡管世界模型熱得滾燙,王仲遠卻對這股熱潮保持著難得的冷靜。他認為,世界模型大概處在深度學習的2012年前后——彼時,數據孤島嚴重、路線未定、Benchmark還在打架,ChatGPT時刻尚未到來。
在他看來,世界模型接下來的硬仗,在于幾個維度的綜合比拼。
首先,模型不能只生成看起來真實但不符合真實物理規律的畫面,比如只是生成“會飛上天的豬”,還要具備長時序一致性,不能不是幾秒鐘的視頻,而是連續變化的狀態。
其次,世界模型必須進行因果邏輯推斷,需要理解動作和結果之間的關系,比如,要明白蓋蓋子和沒蓋子的杯子同時掉落時,會發生什么。最后,世界模型需要作為基座模型應用到多種場景,而不是只服務某個Demo或單一任務。
落到應用側,在他看來,世界模型的價值會在兩大大方向兌現,除了用于突破具身智能的卡點,服務于機器人領域之外,世界模型還可以廣泛應用于嚴肅工業、物理仿真、科學研究等真實物理場景。
“我們期待未來世界模型能成為真正的機器人大腦,世界模型解決了現在VLA、VLM解決不了的問題,提供了泛化、長程、復雜任務和主動探索能力。但這會是一個長期過程,可能需要三年甚至更長時間。”王仲遠表示。
近期,王仲遠與硬氪等媒體聊了聊對世界模型的看法、以及世界模型與具身智能的銜接點,以下是采訪實錄(略經摘編):
世界模型四條分岔路
硬氪:為什么今年智源大會重點談“世界模型”,它和過去的大模型路線是什么關系?
王仲遠:我們不是突然提出世界模型這個概念。早在2024年智源大會上,我們就對人工智能的發展路徑做過預判:大語言模型之后,會進入原生統一多模態,再進入物理世界與硬件結合,進一步走向微觀世界的AI for Science,最終通向物理AGI。
今年智源大會有兩大主題,一個是世界模型,一個是智能體。智能體現在非常熱,尤其是AI Coding已經進入蓬勃爆發階段;世界模型則是我們認為人工智能從數字世界進入物理世界時必須面對的下一代基座模型問題。
硬氪:當前世界模型有哪幾條技術路線?
王仲遠:現在主流的有四條路:
以語言為中心路線(如Gemini3):能感知多模態數據,通過語言思考并描述下一狀態,具備規劃決策能力。
以像素為中心路線(如Sora):適合視頻生成,但不懂物理因果;
以三維結構為中心路線(如李飛飛World Labs的Marble):瞄準元宇宙、游戲等數字世界仿真;
以視覺表征為中心路線(如LeCun的V-JEPA系列):預測的是視覺表征的壓縮,但視覺嵌入演化不等于物理規律演化。
硬氪:智源的世界模型可以歸類于什么路線里?
王仲遠:我們更傾向于在潛空間中學習世界知識,也就是Latent Relation,嘗試把世界知識真正壓縮到隱空間中,再通過不同Decoder輸出Language、Action和Vision。
智源選擇嘗試以語言為中心的分類和以視覺表征為中心的分類可能的融合,原因很簡單,世界模型不僅要“看懂”物理世界,更要“理解”并“決策”。比如人類看到半杯水被打翻,大腦會自動預判“水流方向、地面材質對流速的影響”——這種能力需要將視覺信號與語言推理深度融合,而不是只生成畫面。
我也認同LeCun對“大語言模型局限性”的判斷,但我并不認為語言模型不重要,語言是人類知識的載體,放棄語言等于放棄了人類積累的物理常識。
硬氪:現在很多公司把視頻生成模型稱為世界模型,你怎么看?
王仲遠:我非常明確地認為,視頻生成不等于世界模型。現在世界模型這個詞被廣泛使用,很大程度上是因為OpenAI發布Sora時用了“World Simulator”的表述。
世界模擬器用于描述視頻生成還算相對準確,但視頻生成模型本身并不等同于世界模型。今年很流行的World Action Model,把視頻和Action拼接起來,也不能完全代表真正意義上的世界模型。
在我看來,真正的世界模型應該是面向真實物理世界的下一代基座模型。它不是單純生成一段看起來很逼真的視頻,而是要理解真實物理世界的狀態變化、動作因果、長時間序列一致性和泛化能力。
語言模型時代的核心是Next Token Prediction,也就是預測下一個詞元。而世界模型時代的核心應該是Next Physical State Prediction,預測下一個物理狀態。
語言模型可以用Prompt激發能力,世界模型則需要用State激發能力。語言模型更多是被動觀察,世界模型必須主動交互。語言模型可以是單模態或多模態,世界模型必須走向全模態。
硬氪:一個真正面向物理世界的世界基座模型,需要具備什么能力?
王仲遠:我認為至少需要幾個能力。
第一,要物理正確,光學折射、重力、流體、物體運動都要符合真實物理規律。視頻生成模型可能生成一群在天上飛的豬,但物理世界不會這樣運行。如果機器人裝上一個不能區分真實和虛幻的“大腦”,它可能誤以為自己是鋼鐵俠,這會帶來嚴重風險。
第二,要有動作因果可溯。模型不能只知道畫面變化,還要知道Action會導致什么結果。比如,一瓶水有沒有蓋蓋子,當人類看到它快掉落時,自然會預判不同后果,世界模型需要把這種動作與后果之間的關系學進去。
第三,要有長時間序列一致性。很多視頻生成模型可以生成5秒、10秒甚至1分鐘的視頻,但并不代表它真正理解時間。如果給一個瓶子加水,旁邊有一個時鐘,鏡頭移開再移回來,模型要知道現實中確實經過了10秒或20秒,而不是隨意生成一個看似合理的畫面。
第四,要有通用泛化能力。世界基座模型必須能應用在多個下游場景,就像大語言模型可以用于很多任務一樣。它不能只是一個特定場景的工具,而要能服務具身、物理仿真、科學預測等多種任務。
世界模型或成為真正的機器人大腦
硬氪:當前具身智能最大的問題是什么?
王仲遠:我認為具身智能還處在非常早期。現在的具身模型多數還是單場景、被動任務執行者。它們可以在特定工廠、特定任務、特定數據下工作,比如看到包裹就執行抓取、分揀、放置。這類場景中,VLA或者更簡單的模型都可能有效。
但問題在于,它們很難泛化。真實物理世界是復雜的,有時間、空間、物理規律,也有人類創造的各種工具和環境變化。機器人如果只是被動執行指令,靠一個場景一個場景解決問題,就很難真正大規模落地。
我認為,世界模型和具身智能是相互呼應的。具身智能暴露了當前模型在物理世界中的短板,世界模型則試圖補上這個短板。
硬氪:現在也有一些論調稱,“VLA已死”,世界模型是不是具身智能的必要路線,兩者的關系是什么?
王仲遠:我的判斷是:VLA是當下,世界模型是未來。
VLA當然有用,而且有很大用處。它可以促進機器人在特定場景落地,甚至有些特定場景不一定需要更復雜的世界模型,只要看到包裹就執行動作,搜集特定數據就可以完成任務。
但VLA有局限,比如泛化性不足,其次是長程任務、復雜場景和空間物理規律理解能力不足。再者,VLA模型往往比較大,部署響應速度和Latency較高,不一定能滿足真實物理世界中高頻動作執行的要求。世界模型要解決的是更底層的問題。
硬氪:世界模型對機器人執行任務的幫助,能否舉一個具體的例子?
王仲遠:世界模型不應該只是生成數據,也不只是生成視頻。它更重要的能力是基于當前Context和狀態,預測未來可能發生的狀態,并據此做出當下最優決策。
可以用一個比喻來理解,有點像《奇異博士》看到不同未來,然后選擇最優結果。機器人面對真實環境時,也需要類似能力。它要理解當前環境,預測不同動作會帶來什么后果,再選擇最合適的動作。
比如機器人在酒店或家庭環境中,看到一個門、一只手勢、一個聲音指令、一個房間狀態,它需要結合歷史記憶和當前Context做出判斷:是關廚房的門,還是關房間的門,還是采取其他動作。這不是簡單的圖像識別,也不是簡單的語言指令執行,而是復雜推理后的物理決策。
這就是我們說的世界模型要指揮Agent物理實體執行Action。執行之后,還要繼續采集反饋,評估任務是否完成,并進入下一輪狀態預測和決策。
硬氪:世界模型最終是否會成為真正的機器人大腦?
王仲遠:這是我們的期待。我們希望未來的世界模型能夠在具身場景下真機部署,解決VLA、VLM和傳統動作執行無法解決的問題。機器人需要有泛化能力、長程任務能力、復雜推理能力、主動探索能力。它不僅要能看懂世界,還要能理解動作后果,規劃未來狀態,指揮機器人執行動作,并根據反饋修正決策。
這件事不會短期完成。世界模型是一個長期過程,瞄準的不是短期落地應用,而是下一個人工智能時代的核心能力。短期內,具身機器人會先在具體場景中落地,采集數據,形成閉環;長期看,世界模型有機會成為真正意義上的機器人大腦。
硬氪:世界模型現在最難突破的技術難點是什么?
王仲遠:一個核心難點是數據,尤其是真實物理世界的數據。
大語言模型的爆發依賴互聯網數據。世界模型要進入物理世界,也需要足夠多、足夠高質量的真實物理數據。現在真實世界數據仍然非常缺乏,而且是散落的孤島,沒有形成足夠充足、可復用、可訓練的數據體系。
視頻數據是目前最容易Scale Up(規模化)的數據,因為它海量存在,也確實包含大量真實物理世界的信息。但問題在于,現在科研技術還沒有充分挖掘視頻數據里的物理信息。
除了視頻,我們還需要真實交互數據、異構感知數據、動作軌跡數據、人類指令數據、機器人執行反饋數據。具身機器人在真實工廠、酒店、家庭等場景中工作時,會產生大量有價值的數據,這些數據閉環可能會加速世界基座模型的訓練和爆發。
硬氪:如果真實物理世界數據不足,是否可以依靠仿真數據?
王仲遠:仿真數據有必要,能彌補真實數據采集不足,但我對完全依賴仿真數據構建更強模型是有疑慮的。因為仿真數據本身是人類構造的,它的精準度不一定足夠,如果用不夠精準的海量數據訓練模型,能不能構建出真正理解物理世界的模型?這是需要驗證的。
未來可能會像語言模型訓練中的數據配比一樣,把互聯網數據、視頻數據、仿真數據、真實機器人數據、科學數據等,放在一起訓練世界基座模型。
但不同數據如何配比,現在還沒有標準答案,數據質量和配比會直接決定模型能力,這很大程度上仍然依賴研究員的判斷、實驗和下游任務驗證。最直觀的驗證方式就是具身智能,模型真正部署到機器人上,能不能在訓練數據之外完成任務,能不能在復雜場景中做出合理決策,這些會成為判斷數據和模型能力的重要標準。
硬氪:如果世界模型還很早期,具身智能短期如何落地?
王仲遠:短期內,具身智能會沿途下蛋,也就是先解決具體場景問題,比如工廠分揀、打包、貼紙、放充電器、合上蓋子,或者酒店服務等To B場景。
這些場景本身有商業價值,也能在落地過程中采集數據。機器人在真實場景中干活,會產生人類指令、人類交互、動作軌跡、任務結果等數據,這些數據反過來會幫助未來世界基座模型訓練。
所以我們不能等所有數據都Ready之后再探索技術路徑,技術要先行,產品和系統會跟上。就像深度學習、Transformer、大語言模型的發展一樣,技術路徑往往早于產品爆發。
世界模型尚未到GPT時刻
硬氪:世界模型最可能率先落地在哪些場景?
王仲遠:具身智能肯定是最重要的應用場景之一,除此之外,世界模型也可以用于物理仿真、科學實驗、AI for Science等場景。
現在的很多模型無法解決這些真實場景中的問題,歸根結底,我們希望有一個面向真實物理世界的基座模型,幫助人工智能更好地感知、理解物理世界,并具備推理和決策能力。
硬氪:如果類比大語言模型的發展階段,世界模型現在處于什么階段?
王仲遠:我認為世界模型和具身智能大概處在2012年的時期。那個時候深度學習剛剛興起,從2012年到2018年,再到2022年底ChatGPT發布,大語言模型真正爆發走了大約十年。現在世界模型還沒有到GPT時代,因為數據非常缺乏,技術路線也沒有完全收斂。
但人工智能演化速度越來越快,世界模型可能三年到五年,隨著視頻數據進一步被挖掘,具身機器人不斷在真實場景落地,真實物理世界數據不斷累積,世界模型會更快進入爆發階段。
硬氪:大語言模型時代,中美通常被認為有六到十二個月差距。世界模型時代,中國和海外是否還有差距?
王仲遠:大語言模型早期,我們更多是在跟隨。世界模型是世界上最前沿的研究方向,概念、路線、模型形態都還沒有完全收斂。我覺得世界模型沒有差距,大家站在同一起跑線。
硬氪:未來世界模型的競爭會集中在哪些方面?
王仲遠:現在大家都說自己在做世界模型,但很多所謂世界模型其實是工具,或者是解決特定場景的模型,并不一定是通用世界基座模型。未來真正關鍵的競爭點,我認為包括幾個方面:
第一,能否具備真實物理可驗證能力。模型不能只生成看起來真實的畫面,而要符合真實物理規律。
第二,能否具備長時序一致性。真實世界不是幾秒鐘的視頻,而是連續變化的狀態。
第三,能否進行因果邏輯推斷。模型需要理解動作和結果之間的關系。
第四,能否作為基座模型,用不同數據微調后應用到多種場景,而不是只服務一個Demo或一個垂直任務。
我認為世界模型最后一定需要通過系統和產品來證明。只有當它能在機器人、物理仿真、科學實驗等真實任務中體現價值,行業才會逐漸收斂對世界模型的定義和路線判斷。
硬氪:過去大模型積累的基礎設施能否復用?世界模型對算力等等,有什么新的要求嗎?
王仲遠:我比較樂觀地認為,現有的大模型算力基礎設施、訓練框架、數據工具鏈都可以在很大程度上復用。悟界Emu3.5當時強調的一個理念,就是采用類似大語言模型的架構,并證明它能夠Scale Up。
到了世界模型階段,依然需要處理聲音、圖像、動作軌跡、語言等各種模態,這些在多模態和具身領域已經有基礎。但是,新的挑戰在于Action和State怎么采集、怎么表達、怎么訓練。世界模型會帶來新的需求,但基礎設施并不是完全從零開始。
首頁圖源|企業供圖
排版|范馨雅
end
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.