網易首頁 > 網易號 > 正文 申請入駐

世界模型元年啟示錄:動機、亂戰與暗礁

0
分享至



出品 | 智械島

作者 | 霍如筠(北京)

4月16日,阿里巴巴發布了開放式世界模型Happy Oyster,騰訊開源了3D世界模型HY-World 2.0。

同一天,兩家中國互聯網巨頭宣示了自己在世界模型賽道上的存在感。

此前不到一個月,李飛飛的World Labs剛完成10億美元融資,Yann LeCun的AMI Labs更是以10.3億美元的種子輪震驚硅谷。

資本、巨頭、創業者蜂擁而入,一個響亮的口號迅速傳遍行業:世界模型是大語言模型之后最重要的賽道。

但如果你真的去問這些玩家“世界模型到底是什么”,很可能會得到一堆彼此矛盾的回答。

有人說是“可交互的3D世界”,有人說是“理解物理規律的因果模型”,有人說是“機器人訓練的數字仿真器”,還有人干脆說“就是更高級的視頻生成”。

這不是學術討論的分歧,而是整個賽道正在經歷的認知混亂。

這篇文章試圖理清這場混亂。我們會從三個層層遞進的問題入手:為什么所有大廠突然都在押注世界模型?他們的產品到底在做什么,哪些是實、哪些是虛?以及,那些被光環掩蓋的困境和模糊地帶,究竟有多深?

一、為什么突然All in世界模型?

要理解世界模型為何突然爆火,得先回到大語言模型的一個尷尬事實。

過去兩年,ChatGPT們展示了驚人的語言能力,也暴露了一個致命短板:它們不懂物理世界。

你問一個LLM“把杯子從桌子邊緣推下去會怎樣”,它能回答“杯子會掉到地上”,卻并不能真正理解重力、加速度、碰撞,它只是從訓練數據中記住了類似的句子。

2026年初的一項研究指出,幻覺不是數據問題,不是訓練問題,而是LLM架構的內在缺陷。

這個缺陷在純文本任務中或許可以忍受,但當AI要進入真實世界:操控機器人、駕駛汽車、在工廠里作業,它就變成了一個無法繞過的坎,你不能讓一個自動駕駛模型“大概正確”地判斷前方障礙物,也不能讓一個工業機器人“差不多”地預測零件運動軌跡。

于是,一個更根本的需求浮出水面:我們需要一個能理解物理世界因果律的AI。

它不只要能說,還要能做;不只要看見,還要能預判。這就是世界模型被推到聚光燈下的根本原因。

大語言模型改變了人和信息的關系,而世界模型要改變的,是人和現實的關系。

過去兩年AI的商業化主要停留在信息處理,寫文案、做翻譯、生成代碼,但下一波增長引擎顯然在物理世界:具身智能、自動駕駛、智能制造。

這些場景的共同要求是:AI必須理解空間、預測動態、規劃動作。

所以,大廠押注世界模型,本質上是在爭奪“后LLM時代”的技術制高點。誰先讓AI真正理解物理世界,誰就能在下一輪產業周期中占據主導。

國內外玩家的打法截然不同。

美國那邊,DeepMind、World Labs、AMI Labs更像是在做基礎科學。

他們關心的是如何讓AI擁有像人類一樣的物理直覺和因果推理能力,商業化是遠期目標。Yann LeCun自己都承認,AMI的產品可能要幾年后才能看到。

中國則是另一番景象。阿里和騰訊幾乎在發布模型的同時就綁定了商業場景:Happy Oyster瞄準影視制作和游戲開發的付費用戶,HY-World 2.0直接輸出可導入Unity/UE的3D資產,做起了AI造世界的生意。

還有Sand.ai的VidMuse,圍繞音樂生成視頻這個細分場景,上線幾個月就做到了千萬美元級別的年收入。

中國團隊的邏輯很務實:世界模型首先得是一個能賺錢的產品。

這兩種路線沒有高下之分,但決定了各自的節奏和風險。美國團隊敢于押注十年后的突破,中國團隊則必須在一年內看到回報。

問題是,當所有人都擠在同一個熱詞下喊口號時,局外人很難分清誰在做什么。

二、關于技術標準的拷問

花時間看完各家產品的介紹,你很可能會陷入更大的困惑。因為每個世界模型長得都不一樣,它們的底層邏輯甚至彼此矛盾。

先來看最反直覺的一派。Yann LeCun的AMI Labs走了一條很少有人敢跟的路,他們不認為AI需要生成逼真的畫面。

LeCun的JEPA架構刻意丟棄像素細節,只在抽象的隱空間里做預測。最新發布的LeWorldModel只有1500萬參數,單GPU幾小時就能訓練完,但規劃速度比傳統方法快了48倍。

缺點是,它的輸出人類看不懂,你不能“看到”它預測的未來,只能相信它算對了。

這是一個純粹的學術路線,離普通用戶很遠,但LeCun賭的是:真正的智能不需要模擬每一片樹葉的飄落,只需要理解“風會吹落樹葉”這個因果。

另一條路來自李飛飛的World Labs。李飛飛相信,智能必須建立在三維空間的顯式理解之上。她的Marble模型能從一張照片或一段文字生成一個可編輯、可導航的3D世界,用戶可以在里面自由移動視角。

World Labs還開源了渲染引擎Spark 2.0,讓普通瀏覽器都能流暢加載上億個3D點。

一個坦誠的評價是:Marble擅長重建空間的樣子,但對空間中會發生什么的理解還比較薄弱。

你可以走進它生成的房間,但你推不動里面的椅子,也打不翻桌上的杯子。它是一個靜態世界的復刻者,而不是動態物理的模擬器。

最熱鬧的陣營當屬生成派。谷歌的Genie 3、阿里的Happy Oyster、騰訊的HY-World 2.0都屬于這一類。

他們的邏輯是:只要生成的畫面足夠逼真、交互足夠流暢,物理規律自然會被學出來。

阿里在Happy Oyster里做了一個很有意思的功能叫導演模式,用戶可以在視頻播放的過程中隨時輸入文字指令,改變劇情走向、切換鏡頭角度。騰訊更務實,直接輸出可二次編輯的3D資產,讓游戲開發者可以導入Unity或UE引擎里直接用。

但這類產品有一個共同的軟肋:長時序一致性和物理準確性仍然不穩定。

Genie 3的演示很驚艷,但幾分鐘后畫面就開始走樣。阿里的漫游模式目前只能支持1分鐘的連續位移,超過這個時間會發生什么?官方沒說。

騰訊的3D資產在單一場景下看起來不錯,但它的優勢主要體現在場景完整度和對輸入圖片的遵循程度,這些都是“看起來像”的指標,而不是“物理上對”的指標。

最后還有一個特殊的玩家:英偉達。Cosmos平臺不生產世界模型,它生產“生產世界模型的工具”。

數據處理管線、視頻分詞器、預訓練基礎模型,全部免費開放下載。黃仁勛的算盤很清楚:無論哪條路線最終勝出,訓練和推理都需要英偉達的GPU。

這是最聰明的生意,不賭方向,只賭算力。

那么,這些世界模型哪些是名副其實的?一個關鍵的技術標準是:真正的世界模型必須是“動作條件化”的,也就是說,輸入一個動作,模型要能輸出世界狀態的變化。

你用鍵盤按“W”,畫面里的視角應該向前移動;你給機器人一個抓取指令,模型應該預測物體的位置變化。

按照這個標準,李飛飛的Marble就不太合格,用戶只能看,不能做。它更像一個3D重建工具,而不是世界模擬器。

谷歌的Genie 3和阿里的Happy Oyster雖然支持交互,但物理準確性存疑。騰訊的HY-World 2.0輸出的是靜態資產,本身就不涉及動態預測。

換句話說,目前市場上幾乎沒有一家達到了“完美物理世界模擬器”的標準。每家都在自己的能力范圍內,選擇了一個可展示、可商業化的切入點。

這本身沒有錯,錯的是大家都在用“世界模型”這個模糊的大詞來包裝自己,讓外界誤以為他們已經解決了所有問題。

三、那些被刻意回避的模糊地帶

只讀各家公司的新聞稿,會覺得世界模型已經進入了規模化落地的前夜,但一些被忽略的細節拼出了一幅截然不同的圖景。

數據問題首當其沖。訓練一個真正的世界模型,需要海量的“觀察、動作、結果”三元組,但現實中沒有這樣的現成數據集。

有人用游戲數據,動作標簽完美,但游戲里的物理是引擎模擬的,不是真實物理。

有人用人類第一人稱視頻,最接近真實世界,但視頻里沒有動作標簽,而且人的頭部運動和手部動作糾纏在一起,模型根本分不清是誰在動。

還有人用真實機器人遙操作數據,保真度最高,但采集一小時數據可能要花費數萬美元,根本跑不起來規模。

這意味著每個世界模型都有天生的“能力邊界”。

評估真空是另一個麻煩。你打開任何一家世界模型公司的官網,幾乎都能看到“登頂全球權威評測榜第一”的標語。

問題是,這些評測榜單本身就不成熟。有的側重視覺逼真度,有的側重物理準確性,有的側重任務完成率。一個在視覺榜單上拿第一的模型,可能在物理榜單上墊底。

這種標準的不統一,讓各家可以各說各話。普通人根本搞不清這到底是同一個榜單的不同類別,還是營銷話術的巧妙編排。

還有一個被刻意回避的“不可能三角”。

世界模型面臨三個相互制約的指標:空間尺度、視覺保真度、實時交互性。

你不可能同時做到“世界很大、畫面很清晰、交互很流暢”。李飛飛的Marble就是最好的例子:1.1版本畫質好但空間范圍有限,1.1-Plus版本能生成大場景但畫質發糊。

昆侖萬維的Matrix-Game 3.0能做到720P下40FPS的實時生成,但演示場景的風格和復雜度都很有限。

幾乎沒有產品會主動承認自己的短板,它們更傾向于展示最優工況下的演示視頻,而把極限條件下的失敗藏起來。這種選擇性展示正在制造一個危險的泡沫。

最后,資本的狂歡也帶來了新的投機風險。

一個值得注意的現象是,資本從追捧“大廠老兵”轉向押注頂尖高校的年輕學者。逆矩陣科技的兩位創始人,一個98年、一個04年,來自北大,首輪融資超千萬美元。

他們的技術路線是“強化學習+世界模型”,目前只有論文,沒有產品。這不是說年輕人不行,而是說在范式混沌期,資本愿意為“定義下一代技術”的可能性支付極高的溢價。

但大多數這樣的實驗室項目,最終無法跨越“論文→產品”的鴻溝。Yann LeCun這樣的圖靈獎得主都承認商業化要等幾年,更何況是剛畢業的博士生?

四、結語

世界模型的目標,是讓AI能夠預測甚至干預物理世界。那么,如果AI的預測錯了,誰來承擔責任?

設想一個場景:一輛自動駕駛汽車的世界模型在仿真中“想象”出一個不存在的障礙物,導致車輛緊急剎車,被后車追尾。

這個鍋應該甩給算法工程師,還是仿真數據的提供方?

再設想:一個工業機器人的世界模型錯誤預測了零件的運動軌跡,撞壞了整條生產線。保險公司的理賠標準是什么?

更極端的場景:有人用世界模型生成了一個逼真的虛假3D災難視頻,在社交媒體上引發恐慌。平臺有沒有審核義務?法律如何界定這種“虛擬與現實混淆”的傷害?

這些問題,目前沒有任何一家公司、任何一個國家給出了清晰的答案。世界模型的倫理框架和法律邊界,遠遠落后于技術的發展速度。

當資本和媒體聚焦于“誰能造出最逼真的虛擬世界”時,一個更根本的問題被擱置了:我們真的準備好了嗎?

這或許才是世界模型賽道最被低估的變量。不是算力,不是數據,不是算法,而是責任。



智械島版權所有,未經授權,禁止轉載

聯系郵箱:Cogtopia@163.com

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
中方不再伺候了!對荷光刻機優待全部取消,450億芯片不做了!

中方不再伺候了!對荷光刻機優待全部取消,450億芯片不做了!

錯過美好
2026-04-21 19:01:41
今天才知道,市場上有6種“藥水菜”,菜販子從不給家人吃,指啥

今天才知道,市場上有6種“藥水菜”,菜販子從不給家人吃,指啥

阿龍美食記
2026-04-21 11:00:20
特朗普宣布延長對伊朗停火

特朗普宣布延長對伊朗停火

財聯社
2026-04-22 04:18:10
“法院干警配偶低價拍得銀行6000萬債權”引質疑,多方回應

“法院干警配偶低價拍得銀行6000萬債權”引質疑,多方回應

澎湃新聞
2026-04-21 14:58:02
拼多多暴力抗法震驚全網,市值萬億巨頭為何如此囂張

拼多多暴力抗法震驚全網,市值萬億巨頭為何如此囂張

燕梳樓頻道
2026-04-20 21:12:04
世錦賽:1-4到9-1,3冠王出局,16強決出11席了世界第1靜候斯佳輝

世錦賽:1-4到9-1,3冠王出局,16強決出11席了世界第1靜候斯佳輝

求球不落諦
2026-04-22 05:26:49
4月21日俄烏最新:俄羅斯創造的神話

4月21日俄烏最新:俄羅斯創造的神話

西樓飲月
2026-04-21 20:24:18
解決掉提問的人,問題就解決了?北師大“神操作”火了

解決掉提問的人,問題就解決了?北師大“神操作”火了

虔青
2026-04-20 14:07:53
中國高校只剩7年窗口期 學生數量斷崖式塌方后一半高校都得死

中國高校只剩7年窗口期 學生數量斷崖式塌方后一半高校都得死

六子吃涼粉
2026-04-20 19:10:49
黃大發等涉黑案一審宣判:黃大發等12人組織、領導、參加黑社會性質組織,判處黃大發死刑,其他11名被告人分別判處13年至2年2個月不等刑罰

黃大發等涉黑案一審宣判:黃大發等12人組織、領導、參加黑社會性質組織,判處黃大發死刑,其他11名被告人分別判處13年至2年2個月不等刑罰

揚子晚報
2026-04-21 15:07:17
造29年恥辱紀錄,切爾西0-3布萊頓吞5連敗,遠征球迷痛罵主帥

造29年恥辱紀錄,切爾西0-3布萊頓吞5連敗,遠征球迷痛罵主帥

釘釘陌上花開
2026-04-22 04:55:04
注意!6月1日起大醫院不再隨意接診,看病不按規矩可能白跑

注意!6月1日起大醫院不再隨意接診,看病不按規矩可能白跑

夜深愛雜談
2026-04-21 07:45:20
張雪自曝供應鏈出現危機,正遭遇業內圍剿

張雪自曝供應鏈出現危機,正遭遇業內圍剿

童叔不飆車
2026-04-21 21:50:42
2026年一季度消費:汽車、彩電、空調全線下跌

2026年一季度消費:汽車、彩電、空調全線下跌

風向觀察
2026-04-21 09:27:07
印尼豪賭大潰敗,再次證明了:中國行,但你真不行

印尼豪賭大潰敗,再次證明了:中國行,但你真不行

閱微札記
2026-04-21 11:52:23
多米尼加發現世界最大稀土礦,儲量是我國的三倍多,有何影響?

多米尼加發現世界最大稀土礦,儲量是我國的三倍多,有何影響?

科普大世界
2026-04-21 13:14:21
俄羅斯刪除20年法院數據:審判記錄一夜清空,戰爭信息正在被封住

俄羅斯刪除20年法院數據:審判記錄一夜清空,戰爭信息正在被封住

桂系007
2026-04-21 23:55:34
求求這部劇的編劇,別再費心刻畫“窮人”了,真沒窮人敢這么豪橫

求求這部劇的編劇,別再費心刻畫“窮人”了,真沒窮人敢這么豪橫

八卦南風
2026-04-21 18:12:41
美方已與古巴會談,要求古巴引入“星鏈”、賠償被沒收資產的美國個人與企業、釋放政治犯等;此前特朗普多次威脅稱“解決”伊朗之后是古巴

美方已與古巴會談,要求古巴引入“星鏈”、賠償被沒收資產的美國個人與企業、釋放政治犯等;此前特朗普多次威脅稱“解決”伊朗之后是古巴

魯中晨報
2026-04-21 09:56:06
NBA官方:亞歷山大當選年度最佳關鍵球員 多項關鍵數據聯盟第一

NBA官方:亞歷山大當選年度最佳關鍵球員 多項關鍵數據聯盟第一

羅說NBA
2026-04-22 06:18:26
2026-04-22 09:20:49
智械島 incentive-icons
智械島
在這里,人類和AI是島民。
24文章數 4關注度
往期回顧 全部

游戲要聞

曝育碧已計劃下一款AC重制!《黑旗》重制無劇情DLC

頭條要聞

牛彈琴:伊朗發出讓人毛骨悚然的警告 玩的就是心跳

頭條要聞

牛彈琴:伊朗發出讓人毛骨悚然的警告 玩的就是心跳

體育要聞

一到NBA季后賽,四屆DPOY就成了主角

娛樂要聞

宋承炫曬寶寶B超照,宣布老婆懷孕

財經要聞

伊朗拒絕出席 特朗普宣布延長停火期限

科技要聞

創造4萬億帝國、訪華20次,庫克留下了什么

汽車要聞

全新坦克700正式上市 售價42.8萬-50.8萬元

態度原創

房產
藝術
親子
旅游
手機

房產要聞

年薪40-50萬!海南地產圈還在猛招人

藝術要聞

鄭麗文平底鞋成焦點!宋楚瑜馬英九書法爭議引發網友熱議!

親子要聞

才六天的馬寶寶,發這個視頻沒有別的意思,只是想騙你們生女兒而已

旅游要聞

2026西安絲綢之路國際旅游博覽會舉行

手機要聞

華為Pura90 Pro Max出廠沒貼膜!余承東自信回應:沒必要

無障礙瀏覽 進入關懷版