无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

智源王仲遠:世界模型是通往物理AGI之橋

0
分享至

2026年6月12—13日,北京中關村國際創新中心,第八屆智源大會如約而至。

這場大會的主題覆蓋了二十余個AI行業熱度最高的議題,嘉賓陣容更是涵蓋靈獎得主、頂級科學家、頭部AI企業創始人等眾多行業大咖,線下參會人數突破萬人。

回顧以往的智源大會,會發現一個有趣的“預告”:在大語言模型最火熱的時刻,智源就已經將世界模型標記在了AI演進的路徑上:大語言模型——多模態——世界模型——物理AGI,這也使得智源研究院成為國內最早提出并開展世界模型研究的科研機構。

2023年智源大會上,楊立昆(Yann LeCun)闡述了新一代世界模型的概念;2024年,智源研究院提出的人工智能大模型技術路線預判,明確指出世界模型是下一代大模型技術;其2024年發布的悟界·Emu3和2025年發布的悟界·Emu3.5,更是全球首個原生多模態世界模型。

基于這些技術沉淀,今年的智源大會上集中釋放了一批優異的科研成果——有媒體稱之為“悟界五連發”:原生多模態大模型悟界·Emu3.5;多模態神經科學大模型悟界·Brainμ1.0;AI驅動藥物發現模型悟界·OpenComplex2.5;通用世界基座模型悟界·Physis-v0.1與以物理狀態預測為核心的具身大腦悟界·RoboBrain Orca。

而在當下世界模型敘事的浪潮中,悟界·Physis-v0.1與悟界·RoboBrain Orca成為了這次智源大會的絕對主角。

悟界·Physis-v0.1作為全球首個通用世界基座模型,以”預測下一物理狀態”為核心。它不再依賴傳統像素、幀級預測方案,而是通過物理隱空間表征學習真實世界運行規律,將視頻、深度RGB、3D點云、力觸反饋等多模態信息統一編碼為物理狀態Token,讓模型得以完成跨場景的通用物理規律強化學習,支持復雜物理場景的長程推理。

而悟界·RoboBrain Orca作為下一個物理狀態預測為核心的具身大腦,構建了"統一表征—建?!A測—交互"完整閉環,具備統一表征、因果推演、模態解碼三大核心能力,可同時生成語言思考、視覺預測與動作決策,支撐具身智能機器人在物流場景、酒店服務場景等真實環境中的長期自主作業。

“智源目前認為現有的世界模型技術可分為四類。最廣為人知的應該就是視頻生成模型?!蓖踔龠h表示,“而目前來看,大家都在叫的世界模型都不是真正意義上的世界模型。這是一種對世界模型的誤讀,視頻生成不等于世界模型,這是智源非常清晰的態度?!?/p>

事實上,當Sora、VLA、World Action Model都被冠以“世界模型”的名號,行業確實陷入了一場概念混戰。在這個定義尚未收斂的全新戰場上,智源選擇先亮出自己的坐標。在王仲遠看來,這是一次“正本清源”。


以下為與王仲遠的對話全文,略有刪減:

創投家:為什么智源定義世界模型是通往物理AGI的必經之路?

王仲遠:世界模型是面向真實物理世界的下一代基座模型,它讓機器人真正"理解"物理世界,而不是只背誦訓練軌跡。從"預測下一個Token"到"預測下一個物理狀態"的變革,我們認為也是人工智能的一次重大范式變革,將會產生面向物理世界、物理AI的基座模型誕生的機會。

世界模型不僅能感知、理解、推理真實物理世界的時間、空間、物理規律和物理常識,同時能涵蓋文本、視頻、深度、力覺、感知等全模態數據,還具備主動交互能力,能夠支撐各種物理世界的下游應用。

通用世界基座模型,不僅需要能夠實現物理的正確,還要能夠有動作因果的可溯和長時間序列的一致性以及通用泛化能力。我們開發世界基座模型最核心的原因,就是認為世界模型是具身智能可行的技術解決方案?,F在這個產業需要一次核心技術突破,而世界模型就是那座橋。

創投家:據您的觀察,當下世界模型有哪些技術路線上的分歧?

王仲遠:今年可以明顯感覺到世界模型的熱度非常高,很多不同的技術路線、不同的場景模型都冠以世界模型。簡單來看,智源將現有的世界模型梳理為四種主流技術定義方式:以語言為中心、以像素為中心、以三維結構為中心,以及以視覺表征為中心。

第一類是以以語言為中心的世界模型,包含大語言模型、VLM、VLA都是歸類為以語言為中心。世界模型的核心就是能夠讓人工智能進入物理世界,感知、理解、推理,跟物理世界交互,語言也有總結很多世界的知識,只是以文字的方式表達,VLM、VLA是把其它模態、其它能力映射到語言空間,所以以語言為中心也是屬于一類世界模型。

第二類是以像素為中心的世界模型,這也是當前被誤用最廣泛的方向。OpenAI將Sora定義為"World Simulator",本質上是在預測下一個2D像素場景,這類模型在視頻生成上有廣泛應用。但由于訓練數據大量來自影視作品和科幻片,模型會生成不符合真實物理規律的內容——比如物體憑空消失、違背重力邏輯、流體動力學錯誤等。Yann LeCun也曾多次公開批評,生成像素并不等同于理解物理因果。

第三類是以三維結構為中心的世界模型。李飛飛教授2024年創辦World Labs,提出"空間智能"理念,其發布的Marble可以從單張圖片生成可交互的持久化3D環境,本質上瞄準的是數字世界的構建,將來可能應用于元宇宙、游戲場景和數字孿生。但模型重建3D空間不等于理解世界,幾何結構也不代表物理狀態。

第四類是以視覺表征為中心的世界模型。比如楊立昆的JEPA系列模型,預測的是視覺表征的壓縮,但視覺嵌入演化不等于物理規律演化。


創投家:智源的世界模型走的是哪一條路線?

王仲遠:事實上,我們認為將來也許會有第五個分類,或者智源嘗試的很有可能是第五個分類:就是以語言為中心的分類和以視覺表征為中心的分類的融合,也叫做潛空間表征。

我們依然延續悟界·Emu3.5模型的訓練思想,就是將各種文字圖像視頻模態全部壓縮,原生統一訓練,壓縮在同一個語義空間,通過統一潛空間表征各種真實物理世界的狀態,Decode成為Action、畫面或者其它真實物理世界需要的狀態。

我們認為將來統一的潛空間建模不僅僅是視覺空間,而是全模態潛空間。這很有可能是世界模型的下一個可能性路徑,但因為這條路徑還沒有完全走通,所以現在并不打算定義這個分類,期待明年和后年,智源再次分享最新成果的時候能夠走通。

創投家:全行業世界模型的卡點到底在哪里?

王仲遠:第一個卡點是物理理解。

現在主流的視頻生成模型能做出一分鐘、兩分鐘的畫面,畫面看起來沒問題,但物理規律是錯的。一瓶蓋著蓋子的水和一瓶沒蓋的水掉在地上,人類大腦會立刻預判后果——沒蓋的水會灑出來,蓋著的可能彈起來。這種物理后果的預判,現在的模型完全沒有。我們不是在教模型生成視頻,我們是在教它理解物理規律,然后基于這個理解去預測下一個狀態。

第二個卡點是時間一致性。很多模型從五秒到十秒到一分鐘,看起來時間跨度在增加,但本質上還是在解決"下一幀像不像"的問題。你給一個瓶子加水,旁邊放一個時鐘,鏡頭移開再移回來,時鐘走了十秒還是二十秒?模型不知道。長時間序列的一致性,不是畫面連貫就夠了,是瓶子里到底有多少水、時鐘走了多少秒、物體的位置關系有沒有改變——這些狀態變量必須在時間軸上保持一致。

第三個卡點,也是最大的卡點——世界模型最終要服務于行動。人類看到瓶子要掉下去,會自動伸手去扶。這個Action不是從視頻里學來的,是從物理交互里學來的。我們需要把多模態感知、物理規律理解和動作執行三者打通,而不是讓它們各自為政。具身智能在大量采集真實物理世界的數據,這些數據是有意義的,但怎么讓模型從"看懂"變成"會做"又是另一個層面的問題。

這很像當年大語言模型依賴互聯網數據爆發,世界模型也需要一個足夠規模的、真實物理交互的數據底座,才能迎來真正的拐點。

創投家:訓練世界模型,最需要什么樣的數據?

王仲遠:視頻數據是第一性原理。

去年我接受媒體訪談時舉過一個例子:一個兩歲小女孩,父母從來沒有手把手教過她怎么拆糖果、怎么串藍莓。但她每天刷短視頻,看著屏幕里的小姐姐吃,看著看著,自己就會了。她通過視頻觀察真實物理世界的交互,然后在自己的世界里嘗試、犯錯、修正,最終掌握了這些能力。

視頻是她唯一的信息輸入,但輸入的是物理世界的因果鏈條。她看到"手伸向藍莓→串起來→送進嘴里",這個畫面里包含了動作、物體、空間關系、時間順序,這些不是文字描述,而是物理過程本身。這說明一個核心道理:視頻數據天然攜帶了物理世界的結構化信息,只是我們現在還沒有充分挖掘它的潛力。

創投家:所以核心還是海量的視頻數據?

王仲遠:視頻是底座,但不夠。那個兩歲女孩,她看視頻之后還要真實物理交互——自己拿藍莓、自己串、掉了再撿。這個環節是視頻給不了的。

所以第二層數據是真實物理世界的異構感知數據:機器人的關節角度、觸覺反饋、力矩變化、傳感器讀數……這些"身體感受"是視頻里沒有的。悟界·Physis在訓練時就是雙層結構:底層用海量視頻數據建立物理世界的概念模型,上層用真實物理交互數據來精調動作和決策。兩者缺一不可。

創投家:您認為世界模型與VLA模型的本質區別是什么?

王仲遠:現在的VLA和具身模型,最大的痛點是不具備泛化性,也不具備自我推理和決策能力。

你把它放在訓練過的場景里,它能做;換一個場景,它就蒙了。因為它的"世界理解"不是從足夠豐富的物理經驗里學來的,而是從有限的、標注過的軌跡里硬背下來的。

像那個兩歲女孩,如果她只看過三段串藍莓的視頻,她一定學不會;但如果她看了三百段,再加上自己試了幾十次,她大腦里的"世界模型"就泛化出來了。

所以我們的判斷是:真實物理世界的數據需要持續累積,最終和視頻數據一起,喂給世界基座模型,才能迸發出真正的泛化能力。

好消息是,現在具身智能和AI硬件正在大量采集真實數據,這些數據的匯總和積累,正在逐步觸及物理世界基座模型的爆發點。很像當年大語言模型需要依賴互聯網數據,數據量到了,拐點就來了。

創投家:那VLA和世界模型的終局關系是?

王仲遠:VLA是當下、世界模型是未來。VLA也不會被完全取代,但會分層。在特定場景的落地上,VLA依然非常有效,比如工廠里分揀包裹,這種特定任務、特定場景,搜集特定數據就能完成,VLA是完全夠用的。

但VLA有幾個結構性局限:

第一個是模型太大,部署端響應速度不夠。真實物理世界執行動作是有頻率要求的,機器人要實時反應,VLA的Latency太高了,滿足不了。

第二個是剛剛提到的泛化性。它是在一個固定場景里用固定數據訓出來的,場景一變就需要重新采集數據重新訓練。

第三個,也是最關鍵的,VLA解決不了長程規劃和復雜空間物理規律的推理。

創投家:所以VLA是階段性的過渡方案?

王仲遠: 你可以把它理解成沿途下蛋。VLA促進了機器人在特定場景落地,這本身有價值。但它不是終局。十年后,7B、10B甚至3B的小模型會越來越順暢,部署問題會緩解,但底層問題還在。換一個場景,它依然不懂物理,不會推理。

世界模型是解決泛化性和物理推理的終局。短期VLA繼續落地,長期世界模型接管。兩條路不是對立的,是接力的關系。

創投家:世界模型到底能在哪些場景落地?

王仲遠:場景分為兩條主線:具身智能和物理仿真引擎。

具身是最確定的場景。整個具身產業正卡在一些核心技術瓶頸上:機器人的泛化能力。而世界模型就是來解決這個問題的。雖然現階段它還做不到通用,但會沿途下蛋,在解決具體場景問題的過程中不斷積累。

理想態的世界基座模型既可以用于具身,也可以用于物理仿真、科學實驗,包括其它物理世界的真實場景,應用應該非常廣泛。

創投家:世界模型在數據采集層面的價值,是不是主要就是生成合成數據?

王仲遠:生成數據是其中之一,但遠不是主要價值。我們當然不否認視頻生成模型在無人駕駛、自動駕駛和具身場景都有獨特價值——悟界·Physis和悟界·RoboBrain Orca也確實展示了真實的畫面生成能力。但如果把世界模型只當成"數據生成器",那就把它用小了。

創投家:那在數據層面,它更大的價值是什么?

王仲遠:是決策前置。世界模型真正強調的是:基于當前Context和狀態,預測未來可能發生的各種情況,然后做出最優決策。這跟《奇異博士》有點像——他不是只能看到一種未來,他能看到幾千種未來,然后選擇那一種最好的結果。

創投家:這和數據采集有什么關系?

王仲遠:關系在于,它能指導你采什么數據。傳統數據采集是"掃街"式的——開著車滿世界跑,遇到什么采什么。有了世界模型,你可以先問它:如果我要解決這個場景的泛化問題,哪些物理狀態變量最關鍵?哪些邊緣情況最可能發生?然后我有針對性地去采集,而不是盲目堆數據。這樣數據效率是數量級的提升。

世界模型不是造數據的工具,而是規劃數據需求的大腦。基于對未來狀態的預測,它能告訴你"缺哪塊數據",而不是"幫你生成一堆似是而非的數據"。悟界·Physis和悟界·RoboBrain Orca確實能生成畫面,但那只是驗證手段,不是核心應用。

創投家:訓練世界模型對算力的要求是不是更高?

王仲遠: 要看你走哪條路。世界模型目前技術路線沒有完全收斂,不同路線對算力的需求天差地別。

如果你把語言體系包進去,走生成路線,那算力需求就是海量的,和GPT-4、Sora一個量級。這些路線本身也是世界模型技術路徑的一種探索,但它們天然就是算力黑洞。

創投家:智源走的是什么路線?對算力要求高嗎?

王仲遠: 悟界·Physis的設計思路是不包含語言,專注在視覺和物理狀態的Latent學習。Latent學習方法的本質是極致壓縮——不是把整個世界打成像素重建,而是在隱空間里學習物理狀態的抽象表示。這省下來的算力是數量級的。所以我們現在推進 悟界·Physis,算力需求是相對可控的,不需要堆萬卡集群才能跑。


創投家:您預期世界模型距離技術成熟還需要多久?大家都覺得大語言模型上中美的差距是六到十二個月,那世界模型呢?

王仲遠:必須承認物理AI特別是世界基座模型的研究,全世界范圍依然處在非常早期,甚至是概念和技術路徑都遠沒有收斂,因此我們的模型才稱之為0.1版本。距離成熟,至少還需要三到五年,甚至更久。科研探索這件事說不準,可能卡在一個難點三五年也沒突破,但也可能突然迎來技術爆發。

而在世界模型這個賽道上,我覺得中美沒有差距。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
4比0!3比0!U23國足兩連勝,安東尼奧循序漸進,一利好值得點贊

4比0!3比0!U23國足兩連勝,安東尼奧循序漸進,一利好值得點贊

王大發不懂球
2026-06-17 22:01:32
省長低調去行政大廳辦事,被窗口人員呵斥:沒號就滾,誰都得排隊

省長低調去行政大廳辦事,被窗口人員呵斥:沒號就滾,誰都得排隊

紅豆講堂
2026-02-26 13:20:04
100多位情婦,包養費上億元,曾9女同床卻淪落凄涼下場、人財兩空

100多位情婦,包養費上億元,曾9女同床卻淪落凄涼下場、人財兩空

傲傲講歷史
2026-06-11 16:24:18
A股走出2個7倍股,9個5倍股,牛股都是這5個題材

A股走出2個7倍股,9個5倍股,牛股都是這5個題材

鵬哥投研
2026-06-18 11:27:44
意難平!20 位一輩子沒踢過世界杯的足壇傳奇,第一無人不服!

意難平!20 位一輩子沒踢過世界杯的足壇傳奇,第一無人不服!

瀾歸序
2026-06-06 04:30:06
4套房全給兒子,拎包去女兒家住,女兒堵門塞回機票:我們下周走

4套房全給兒子,拎包去女兒家住,女兒堵門塞回機票:我們下周走

墨染塵香
2026-06-16 09:15:36
國家發改委:第三批625億元國補6月底前下達

國家發改委:第三批625億元國補6月底前下達

澎湃新聞
2026-06-18 11:15:09
破案!之前大放異彩的王奧芊為何只得2分?賽后原因曝光球迷心痛

破案!之前大放異彩的王奧芊為何只得2分?賽后原因曝光球迷心痛

南海浪花
2026-06-18 06:19:30
醒醒吧:吹捧君王制,是跪在奴隸社會的廢墟上舔骨頭

醒醒吧:吹捧君王制,是跪在奴隸社會的廢墟上舔骨頭

浪子說
2026-06-09 10:57:05
有沒有人敢爆自己的瓜?網友:確定玩這么大嗎?

有沒有人敢爆自己的瓜?網友:確定玩這么大嗎?

夜深愛雜談
2026-02-18 20:55:58
美國知名演員黛維·切斯去世 曾出演午夜兇鈴

美國知名演員黛維·切斯去世 曾出演午夜兇鈴

陳意小可愛
2026-06-18 14:04:35
王毅離開48小時,蒙古國突然行動!暗號直指東京,背后大有文章

王毅離開48小時,蒙古國突然行動!暗號直指東京,背后大有文章

清歡百味
2026-06-18 14:42:42
6月19日世界杯看點:死亡B組大混戰,韓國贏球將成48隊出線第1隊

6月19日世界杯看點:死亡B組大混戰,韓國贏球將成48隊出線第1隊

新殺豬的秀才
2026-06-18 16:40:11
凱爾特人渴望拿下字母哥!布朗交易立場曝光:根本不想去雄鹿打球

凱爾特人渴望拿下字母哥!布朗交易立場曝光:根本不想去雄鹿打球

羅說NBA
2026-06-18 05:48:17
明日端午是“惡日”,今年端午牢記3個忌諱:1不掛、2不躺、3不吃

明日端午是“惡日”,今年端午牢記3個忌諱:1不掛、2不躺、3不吃

阿天愛旅行
2026-06-18 20:17:56
快生了沒人管,鞋里都是老鼠!六胎寶媽引關注,經歷曝光被罵活該

快生了沒人管,鞋里都是老鼠!六胎寶媽引關注,經歷曝光被罵活該

林林先生
2026-06-18 11:05:03
向太承認自己六親緣淺,但她對向佑越狠,才是對兒子更好的保護!

向太承認自己六親緣淺,但她對向佑越狠,才是對兒子更好的保護!

五四觀娛
2026-06-18 13:30:22
CCTV5直播,中國男籃VS荷蘭男籃,5大核心主力缺陣,球迷炸鍋了!

CCTV5直播,中國男籃VS荷蘭男籃,5大核心主力缺陣,球迷炸鍋了!

體壇小快靈
2026-06-18 12:24:11
離婚8年,王小海做夢也想不到,如今前妻王小瑋已經混得風生水起

離婚8年,王小海做夢也想不到,如今前妻王小瑋已經混得風生水起

阿傖說事
2026-05-23 15:04:43
十幾年的無邪氣被查了!但人家純為愛發電,直接被不立案釋放

十幾年的無邪氣被查了!但人家純為愛發電,直接被不立案釋放

戒戒說游戲
2026-06-17 08:09:58
2026-06-18 21:31:00
鈦媒體APP incentive-icons
鈦媒體APP
獨立財經科技媒體
135286文章數 862288關注度
往期回顧 全部

科技要聞

庫克承認扛不住了,蘋果漲價“不可避免”

頭條要聞

男子連續140天高強度工作后猝死 公司:周末不算工傷

頭條要聞

男子連續140天高強度工作后猝死 公司:周末不算工傷

體育要聞

英格蘭4比2克羅地亞:本屆迄今,最佳比賽

娛樂要聞

39歲梅西不愧是人生贏家!

財經要聞

博睿康IPO,賺錢業務與資本敘事是兩門生意

汽車要聞

驚出冷汗!重慶實測奧迪A5L,華為智駕這波操作絕了…

態度原創

教育
房產
數碼
手機
時尚

教育要聞

被孩子折磨的崩潰的媽媽,該如何自救?

房產要聞

商業清零式退潮,大量住宅登場!三亞又要大規模調規!

數碼要聞

七彩虹確認參展BW2026:主題區亮點曝光

手機要聞

存儲漲價帶崩手機!第20周全球手機銷量:僅華為、蘋果逆勢增長 其余廠商都在跌

今年最流行的5款短發,太適合夏天了!

無障礙瀏覽 進入關懷版