无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

盲人摸象但真象無形,資本競逐世界模型:熱潮、分歧與未竟之路

0
分享至

“什么是真實?你怎么定義真實?”這是電影《黑客帝國》里一句發人深省的追問。

2026年,關于世界模型的熱潮,正在經歷一個相似的時刻——定義與共識。

2026年,圖靈獎得主楊立昆(Yann LeCun)與謝賽寧聯合創立的AMI Labs,完成超10億美元融資;李飛飛的World Labs同樣拿到數億美元融資;英偉達正式推出Cosmos平臺;智源研究院在智源大會上發布悟界Physis v0.1??

全球頂尖資本與頂尖大腦一擁而上,但有一個問題尚未等到答案:當我們談論世界模型時,我們在談論什么?

李飛飛與World Labs團隊發表了一篇文章,指出當前業界談論世界模型時存在嚴重的概念混淆:一個能生成絢麗但物理上不可能的火焰的視頻模型、一個即興創作可玩游戲的語言模型、一個能準確模擬燃燒過程的物理引擎,都在使用這同一個名詞。

近日,智源研究院院長王仲遠坦言:“世界模型的定義到底是什么,大家還沒有達成共識。”形成共識,路線方能收斂。在一個融資熱度高達數十億美元的賽道里,共識是一個必須回答的大前提。

“通用”是最根本的驅動力

李飛飛團隊關于世界模型概念的文章,再度引發行業對于世界模型定義的熱議。與此同時,在近期剛剛結束的智源大會上,智源研究院也表態,要為世界模型“正本清源”。

世界模型并不是一個新概念。它的出現可以追溯到1943年,心理學家最早提出了相關判斷;2018年,這一概念擴展至智能世界,一篇題為《World Models》的論文引發了學術熱潮。

如今這波世界模型熱潮的起點,與Sora的誕生密切相關。

2024年春節,Sora橫空出世,OpenAI彼時介紹Sora是“World Simulator”(世界模擬器),以此為標志,世界模型受到了更廣泛的關注。


圖片來源:AI

在Sora生成的視頻里,液體在流動,光影在變化,模型根據視頻數據摸索出了某些物理世界的規律,通過上一幀推測猜出下一幀,隨著猜對的比例越來越高,它看似越來越懂得物理世界。

李飛飛的文章里用了一個詞描述這類模型的本質:渲染器(Renderer)。她認為,渲染器優化的是視覺可信度,不是物理準確性。“它們的輸出很美,但你無法信任它們去設計一棟建筑或訓練一個機器人。”

具身智能的熱潮則為世界模型添了一把猛火。

在很長一段時間里,VLA(視覺—語言—動作模型)被視為具身智能模型突破的核心路徑,但因高度依賴成本高昂且產出極低的真實成功動作數據,并且無法直接利用海量缺乏動作標注的互聯網視頻,其面臨嚴重的數據瓶頸。

世界模型提供了新的利用數據的方法,它的訓練目標不是模仿正確動作,而是理解動作和結果之間的因果關系。在這個邏輯下,失敗軌跡、無標注視頻在世界模型的框架里都變成有價值的訓練素材。

機器人嘗試把一個杯子從桌上拿起來,手指位置偏了,杯子倒了。這段錄像在VLA訓練體系里可能是廢品,但在世界模型的框架里,失敗本身變成了信息。

智源研究院理事長黃鐵軍解釋了為什么這一次的熱潮和上一次不同:“現有VLA技術,在制造或抓取等特定場景完成任務是可以的。但我們希望具身智能是通用的,像人一樣,在任何一個場景下遇到不同的問題都可以去解決,這樣的模型現在還沒有。”

通用,是這場熱潮最深處的驅動力。

理想、視覺與閉環:世界模型路在何方?

熱情一致,路線分歧,甚至彼此沖突。對于世界模型學什么、用什么方法學,當前業界有幾條主流的路徑。

楊立昆的JEPA(聯合嵌入預測架構)是其中一條代表路徑。它追求幾何和動力學上的準確性,而非視覺可信度,認為視頻里大量的像素信息是不可預測且無意義的,一段視頻中可能包含大量的冗余信息,把模型容量浪費在學習這些統計噪聲上,是資源浪費。

但問題在于,不生成可視化輸出,很難直觀判斷模型究竟理解了什么,模型對物理世界的理解可能會“變形”。

另一條代表路徑是由視頻生成模型逐步邁向世界模型,它的核心主張是,如果一個模型能夠生成足夠準確的下一幀視頻,它就已經學到了世界運行的某種規律。

清華大學計算機系教授朱軍認為,和世界最相關的數據就是視頻數據,它是最容易、最方便而且記錄量最大的關于世界的數據。

但矛盾在于,視頻生成的目標和動作生成的目標是不同的。視頻生成越好,不代表動作預測越好,反之亦然。視覺可信度和物理準確性之間,有一道還沒有被彌合的鴻溝。

王仲遠舉例說明:視頻生成模型可以生成一群豬在天上和飛機一起飛,“因為視頻生成模型采用大量科幻電影訓練,目標本身就不是為了真實物理世界基座模型,只是通過大量視頻學習能夠捕捉到一定的世界知識”。

第三條路徑認為,預測必須參與改變動作,閉環才有價值,這也暗含著“性價比”也是考量因素。

星源智聯合創始人孫振國的邏輯是,如果世界模型只是作為旁路的訓練約束,訓練開銷可能遠超性能提升,“還不如探索VLA這種更高效的范式。”他希望達成世界模型參與改變動作本身:機器人即將執行一個動作時,先在內部模擬這個動作的后果,如果預測結果不理想,修正動作,再模擬,再修正,直到滿意再執行,最終可以變成一個自進化的智能體。

數據是最誠實的“天花板”

以上所有路線都要面臨同一個問題——數據。

視頻數據和語言數據之間有一個無法靠堆量解決的不對稱問題:語言本身是一種高度濃縮的信息載體,但在視頻中,絕大部分像素是背景、與物理因果無關的細節。用視頻數據訓練世界模型,意味著模型需要在數百萬像素里挑出真正有用的信息。


圖片來源:每經媒資庫

此外,物理理解不是靠觀察就能學會的,它來自干預——真實世界的物理規律發生在人類和物體之間的交互中,一個孩子知道玻璃杯摔在地上會碎,不只是因為他看過,更是因為他可能失手摔過,感受過力的傳導,聽過聲音,看過碎片的飛濺方向。

Skywork首席科學家劉揚描述了視覺信息的一個具體盲區:“我把一個杯子從桌子上拿起來,這個杯子有沒有粘在桌子上導致我拿不起來?這個杯子里面的水到底是開水、溫水還是冷水,視覺信息都沒有辦法去表達。”

智象未來創始人梅濤此前向《每日經濟新聞》記者描述了他們正在走的路,即以少量真實操作數據為種子,用視頻大模型進行數據增廣,同樣一段操作,生成在不同背景、不同光照、不同物體顏色下的大量變體,用于模型訓練。

但同時也要注意,因為人類掌握的物理知識不夠完備,仿真始終存在缺陷。

黃鐵軍認為,要改變采集數據的方式本身,而不是在現有方式上堆量。他表示,世界模型階段需要在線的、實時的數據,讓采集寄生在真實生產生活上。比如,工人正常作業時佩戴傳感設備,數據自然產生,采集成本會大幅下降。

同時,當前數據處理方式是低效的,原因在于所有像素被平等處理。人類視覺系統高效,是因為有選擇性注意力。“在晚上什么都看不見,突然有光一閃,人眼是可以捕捉到的,而且這時候觸發的只是一個神經元,引發一系列響應,計算量和消耗的能量極低。”黃鐵軍表示。

王仲遠畫了一個時間尺度更長的框架。他說,真正催生跨時代世界模型的,可能要等到物理世界的互聯網出現,就像數字世界的互聯網積累了海量文字數據,催生了大語言模型,將來隨著AI硬件越來越多、持續采集大量真實物理世界數據,才有可能形成同等規模的物理數據基礎。

而這個基礎,今天還不存在。

世界模型仍在經歷“盲人摸象”

“現在仍處于世界模型的早期,所有世界模型領域奪冠的模型都還不是未來真正的世界模型。”智源當前對于世界模型做出了四個分類:以語言為中心的世界模型;以像素為中心的世界模型,即視頻生成;以三維結構為中心的世界模型,包括3D重建;以視覺表征為軸心的世界模型。

但王仲遠指出,四類模型距離真正面向物理世界的基座模型都有很大的距離。

世界模型離我們究竟還有多遠?各方給出的時間判斷差距之大,本身就說明了這個領域的真實狀態。

銀河通用創始人王鶴的預測最樂觀,但他針對的是一個非常具體的目標,他認為WAM(World Action Model,世界行動模型)打開數據來源約束之后,具身智能里的核心操作任務將在兩年內達到關鍵里程碑,但前提條件是:行業需要千萬小時的高質量數據,以及百億元級的資金投入,才能成為沖刺的入場券。

黃鐵軍把目標降到更加具體的層次:“未來兩三年,能跟人日常工作相比的這樣一個世界模型,是有可能出來的。”他解釋了這句話的含義:做物理性工作的人的常識性能力,不是科學家的水平,只是在日常生活場景里做出合理物理判斷和動作的系統。

王仲遠的判斷是至少還需要好幾年,“很可能卡在一個地方三五年都沒有突破,也有可能突然就突破了”。

他同時給出了一個具體的能力標準:一個3歲小朋友正在睡覺,廚房聲音很大,家人只要揮一下手,大家就知道應該關門。這種基于當前物理狀態、不需要語言的直覺式預測和決策,是基本能力門檻。

在連評測標準都沒有共識的領域里,時間表本身就是一個沒有統一參照系的數字。王仲遠也談到了這一點:“世界模型目前缺乏非常嚴謹的評測框架和體系。現在很多世界模型的評測都是以視頻生成評測為重點,但不代表完整的未來世界模型作為基座模型的核心能力。”目前智源正在構建世界模型的評測基準,核心問題只有一個:能否對下一個物理狀態做出正確預測。

黃鐵軍用“盲人摸象”來描述世界模型現在的狀態:“現在各類視覺模型都是在往一個真正的世界模型靠近的過程,可能都抓住了其中某一個方面的特征,但又沒有(抓住)全部,就跟盲人摸象一樣,摸著耳朵說是大象,摸著腿也說是大象。”

不過,在盲人摸象的故事里,大象是確定存在的,只需要把各部分拼在一起。世界模型的問題則在于,完整的大象究竟是什么樣子,目前沒有人真正見過,也沒有一套公認的方法驗證你是否已經摸到了它。

朱軍的一句話,或許道出了這個領域某種更深的困境:在復雜的、開放的場景里,很多時候我們并沒有清晰或單一的目標,可能優化的是一個多維度的東西。

如何把適應物理世界這件事寫成一個可優化的目標函數,本身就是一個沒有被解決的根本問題。

在描述世界表象與理解世界本質之間,是世界模型仍在攀爬的距離。

聲明:包含AI生成內容

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
002175,股價漲停!籌劃控制權變更

002175,股價漲停!籌劃控制權變更

證券時報e公司
2026-06-22 20:53:31
中國收緊鎢出口,日本將祭出光刻膠反制?專家:效果早已大不如前

中國收緊鎢出口,日本將祭出光刻膠反制?專家:效果早已大不如前

胖福的小木屋
2026-06-22 20:49:12
秦海璐變賣房產,清空全部資產,湊出近億身家,絕境兜底救下劉濤

秦海璐變賣房產,清空全部資產,湊出近億身家,絕境兜底救下劉濤

秋別離
2026-06-13 15:50:00
地球真的生病了!塔克拉瑪干沙漠邊緣發洪,當地人:這輩子沒見過

地球真的生病了!塔克拉瑪干沙漠邊緣發洪,當地人:這輩子沒見過

哄動一時啊
2026-06-22 19:28:35
二十余年遺憾終圓滿!陳偉霆首個父親節,一雙定制親子鞋戳哭全網

二十余年遺憾終圓滿!陳偉霆首個父親節,一雙定制親子鞋戳哭全網

繁華羽淡洛
2026-06-21 16:05:36
凌晨1點梅西沖11大神跡 登場即創3項紀錄 或獨享歷史金靴+助攻王

凌晨1點梅西沖11大神跡 登場即創3項紀錄 或獨享歷史金靴+助攻王

我愛英超
2026-06-22 18:57:28
哈特剛把300萬絕殺用球揣回家,就被聯盟召回!球員再也沒法私藏

哈特剛把300萬絕殺用球揣回家,就被聯盟召回!球員再也沒法私藏

奕辰說球
2026-06-22 10:55:28
第一屆打藥運動會,游泳運動員因打藥太多浮不起來

第一屆打藥運動會,游泳運動員因打藥太多浮不起來

果殼
2026-06-11 12:14:41
土耳其總統:全人類都在為這場荒謬、非法、無意義的戰爭付出代價

土耳其總統:全人類都在為這場荒謬、非法、無意義的戰爭付出代價

深析古今
2026-06-22 21:08:25
“46+10”,中國兩部門同天宣布制裁美企

“46+10”,中國兩部門同天宣布制裁美企

樞密院十號
2026-06-22 19:34:46
天賜了一個,天收了一個!老黃還是瞞不住了,直言大兒子已經去世

天賜了一個,天收了一個!老黃還是瞞不住了,直言大兒子已經去世

離離言幾許
2026-06-22 12:30:06
北航博導楊昀發布個人聲明澄清爭議,耿同學轉發呼吁抵制謠言

北航博導楊昀發布個人聲明澄清爭議,耿同學轉發呼吁抵制謠言

秋楓未語
2026-06-22 10:31:14
夏至后,少吃西瓜,多吃這3樣,腿腳有勁精神足,安穩過三伏

夏至后,少吃西瓜,多吃這3樣,腿腳有勁精神足,安穩過三伏

江江食研社
2026-06-21 20:45:08
保險賣不動了:當年的承諾,今天全成了證據

保險賣不動了:當年的承諾,今天全成了證據

財經保探長
2026-06-21 18:08:19
女老師穿“日系連衣裙”,家長們坐不住了:天氣再熱也不能這么穿

女老師穿“日系連衣裙”,家長們坐不住了:天氣再熱也不能這么穿

蝴蝶花雨話教育
2026-06-06 00:05:36
國內電車零售量下跌,外資電車暴漲51%,車企銷量上漲的真假?

國內電車零售量下跌,外資電車暴漲51%,車企銷量上漲的真假?

柏銘銳談
2026-06-21 19:56:37
沉默45年,中國第二輪"嚴打"終于來了!目標改變總體戰正式打響

沉默45年,中國第二輪"嚴打"終于來了!目標改變總體戰正式打響

細說職場
2026-06-19 14:29:16
中俄通婚劇增,若不了解俄羅斯女性生理特征,婚后可能會很痛苦

中俄通婚劇增,若不了解俄羅斯女性生理特征,婚后可能會很痛苦

抽象派大師
2026-06-03 22:04:48
霍啟山婚訊生變:娜然踩中家國紅線,郭晶晶一語定調

霍啟山婚訊生變:娜然踩中家國紅線,郭晶晶一語定調

草莓解說體育
2026-06-22 15:51:51
“你隨意”:50歲妻子自述婚姻性需求屢次溝通無果,中年欲望覺醒引發焦慮

“你隨意”:50歲妻子自述婚姻性需求屢次溝通無果,中年欲望覺醒引發焦慮

有態度網友ytd2993
2026-06-22 00:07:10
2026-06-22 22:00:49
每日經濟新聞 incentive-icons
每日經濟新聞
中國主流財經全媒體平臺。
1596204文章數 2726699關注度
往期回顧 全部

科技要聞

智譜盤中狂飆超40%,市值破萬億港元

頭條要聞

成都2.3億"天價"別墅流拍 原房主身份披露

頭條要聞

成都2.3億"天價"別墅流拍 原房主身份披露

體育要聞

法國球星祝中國隊下屆世界杯取得好成績

娛樂要聞

陪睡陪玩是皮毛,向佐揭內娛暗規則

財經要聞

前美聯儲主席格林斯潘去世 享年100歲

汽車要聞

華為智駕ADS限時優惠月底結束 7月1日前下訂立省3000元

態度原創

藝術
家居
手機
親子
公開課

藝術要聞

畫中女人究竟在等誰?他筆下的柔情,讓整個美國都淪陷了!

家居要聞

綠意盎然 自然之境

手機要聞

蘋果攤上事兒了!48位中國開發者直接舉報,都是費率惹的禍?

親子要聞

新生兒紙尿褲哪品牌好?2026真實口碑榜揭曉,好奇小森林優選推薦

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版