網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

2026年，“AI新貴們”集體押注世界模型

2026-06-23 17:59:13　來源: 鈦媒體APP

北京舉報(bào)

分享至

文 | 產(chǎn)業(yè)家

下一代AI公司未必只誕生在擁有最大參數(shù)、最多論文和最強(qiáng)算力的地方，也可能誕生在真實(shí)場(chǎng)景最密集、產(chǎn)業(yè)反饋?zhàn)铑l繁、工程迭代最快的地方。因?yàn)锳I真正改變世界的方式，不是停留在屏幕里回答世界，而是進(jìn)入產(chǎn)業(yè)現(xiàn)場(chǎng)，理解世界、模擬世界、行動(dòng)于世界，并最終提升世界的運(yùn)行效率。

AI似乎正在集體“逃離”純文本，全面挺進(jìn)由重力、動(dòng)量、幾何空間構(gòu)成的真實(shí)物理世界。

1月8日，北京智源研究院發(fā)布《2026十大AI技術(shù)趨勢(shì)》，將世界模型列為通向AGI的重要共識(shí)方向，并提出從Next Token Prediction（預(yù)測(cè)下一個(gè)詞）向Next State Prediction（預(yù)測(cè)世界的下一個(gè)狀態(tài)）的范式遷移。

隨后幾個(gè)月里，產(chǎn)業(yè)界的動(dòng)作密集得幾乎令人目不暇接。

首先是原本涌向具身智能的大額資金，開始對(duì)準(zhǔn)有“世界模型”標(biāo)簽的企業(yè)。

3月份，極佳視界完成約15億元融資，同月，極佳視界的GigaWorld-1在WorldArena評(píng)測(cè)中登頂，成為全球唯一綜合得分突破60分的具身世界模型，成績(jī)超過谷歌、英偉達(dá)和阿里。從今年3月份到如今，吸金35億，被市場(chǎng)稱為“國(guó)內(nèi)首個(gè)世界模型獨(dú)角獸”；

除此之外，智平方（AI2 Robotics）B 輪系列融資超 10 億元，估值過百億；具身基座公司千尋智能，2026 年開年三個(gè)月內(nèi)完成四輪融資、吸金 45 億元；做世界模型 Fast-WAM 的星海圖，繼 2 月近 10 億元 B 輪后，4 月再拿近 20 億元 B+ 輪；

二級(jí)市場(chǎng)也表現(xiàn)出類似的“偏愛”。

4月17日，“物理 AI”新股群核科技，作為全球首家以空間智能為核心技術(shù)底座的上市公司，上市即獲得市場(chǎng)，上市首日大漲 144%；與此同時(shí)，生數(shù)科技兩個(gè)月累計(jì)融資26億元，投后估值超過120億元，并傳出最快于2026年啟動(dòng)港股IPO的消息。

值得注意的是，這倆家企業(yè)的技術(shù)路線恰是通往世界模型的路徑之一。

各個(gè)領(lǐng)域的玩家們也蠢蠢欲動(dòng)。4月16日，騰訊和阿里在同一天各自發(fā)布了一款世界模型產(chǎn)品。騰訊拿出的是開源的混元 3D 世界模型 2.0（HY-World 2.0），阿里端出的是主打?qū)崟r(shí)交互的 HappyOyster。

車企的動(dòng)作更加激進(jìn)。吉利發(fā)布WAM世界行為模型，試圖統(tǒng)一智駕、智能座艙和底盤控制；華為乾崑公開拒絕 VLA，堅(jiān)持其 WA（World Action）路線，車 BU 負(fù)責(zé)人直言"VLA 看著聰明，但不是自動(dòng)駕駛的真正解"；Momenta 則把寶押在世界模型上。

機(jī)器人領(lǐng)域，英偉達(dá)Cosmos、DreamGen、DreamZero相繼推出，智元發(fā)布GE-2，星海圖也開始布局世界模型基礎(chǔ)設(shè)施。

海外同樣熱火朝天。

圖靈獎(jiǎng)得主Yann LeCun，在執(zhí)掌Meta AI多年后，于不久前選擇自立門戶，創(chuàng)立了專注于世界模型的 AMI Labs，并在2026年3月一舉斬獲了創(chuàng)紀(jì)錄的10.3億美元巨額種子輪融資。并放出話，“現(xiàn)有的LLM路線徹底錯(cuò)了，單純靠預(yù)測(cè)文本，AI永遠(yuǎn)無法觸及人類級(jí)別的智能。我們需要能理解物理現(xiàn)實(shí)的模型。”

李飛飛創(chuàng)立的World Labs于2月完成10億美元融資，累計(jì)融資額達(dá)到12.3億美元，估值約50億美元，首款商業(yè)產(chǎn)品Marble正式上線；就在最近，OpenAI也正式宣布進(jìn)入機(jī)器人賽道。

一二級(jí)市場(chǎng)的資金、頂尖的科學(xué)家以及跨界巨頭，正以較高的密度向一個(gè)詞低頭，那就是世界模型。

而世界模型，又是為什么突然成為所有人的必爭(zhēng)之地？

一、Scaling Law 放慢，行業(yè)開始尋找語言之外的答案

AI 巨頭的新共識(shí)：只靠文本似乎到不了 AGI。

過去幾年，大語言模型遵循著一個(gè)簡(jiǎn)單而有效的邏輯，那就是預(yù)測(cè)下一個(gè)詞。這種機(jī)制帶來了驚人的能力躍遷。模型不斷刷新認(rèn)知能力邊界，也讓整個(gè)行業(yè)相信，只要繼續(xù)擴(kuò)大參數(shù)、增加數(shù)據(jù)、堆積算力，AGI終將到來。

但2026年，一個(gè)越來越難以回避的問題出現(xiàn)了。那就是Scaling Law開始失靈。

以O(shè)penAI為例，其在GPT-4.5系統(tǒng)卡中稱GPT-4.5是“l(fā)argest and most knowledgeable model yet”，且“scales pre-training further”；但在SWE-bench Verified上，GPT-4.5 post-mitigation只有38%，只比GPT-4o高2%–7%，并且比Deep Research低30%。

這意味著，在其模型迭代中，“更大預(yù)訓(xùn)練”仍有提升，但已不是最有效的能力來源。

與此同時(shí)，數(shù)據(jù)墻開始出現(xiàn)。互聯(lián)網(wǎng)高質(zhì)量文本數(shù)據(jù)幾乎被采集殆盡。Epoch AI估計(jì)，可用于AI訓(xùn)練的高質(zhì)量、重復(fù)調(diào)整后的人類公共文本約300萬億token；若趨勢(shì)繼續(xù)，語言模型將在2026—2032年之間完全用盡這部分存量。

而即便擁有全世界最大的語料庫，其實(shí)也無法讓AI真正理解什么是重力、摩擦力、慣性和空間關(guān)系。

原因并不復(fù)雜，語料庫記錄的是人類如何描述世界，而不是物體如何在世界中運(yùn)動(dòng)。物理常識(shí)在文本中天然稀缺，因?yàn)槿藗兺ǔ２粫?huì)反復(fù)寫下“杯子會(huì)掉下去”“輪子會(huì)滾動(dòng)”“濕地會(huì)打滑”這樣的常識(shí)；這導(dǎo)致大型預(yù)訓(xùn)練模型在這類物理常識(shí)題上能力較低。

多模態(tài)模型也沒有徹底解決這個(gè)問題。

BLINK基準(zhǔn)顯示，人類幾乎一眼就能完成的深度、空間對(duì)應(yīng)、多視角推理任務(wù)，GPT-4V平均只有51.26%，Gemini只有45.72%，離隨機(jī)猜測(cè)并不遠(yuǎn)。

PhysBench進(jìn)一步把測(cè)試擴(kuò)展到摩擦、密度、張力、彈性、運(yùn)動(dòng)、碰撞、投擲和流體等真實(shí)物理維度；在75個(gè)視覺語言模型、10002條測(cè)試樣本上，研究者發(fā)現(xiàn)物理理解并不會(huì)隨著模型大小、訓(xùn)練數(shù)據(jù)量或視頻幀數(shù)穩(wěn)定提升。換言之，AI即使讀遍互聯(lián)網(wǎng)上關(guān)于“重力”的文字，仍可能不知道一個(gè)球?yàn)槭裁床荒軕{空消失、為什么物體不能穿墻、為什么運(yùn)動(dòng)必須連續(xù)。

這種局限性，最終體現(xiàn)為企業(yè)落地AI時(shí)最頭疼的問題，那就是幻覺。

一個(gè)事實(shí)是，在金融、醫(yī)療、工業(yè)等高容錯(cuò)成本場(chǎng)景中，LLM依然無法建立穩(wěn)定可靠的物理因果推理能力。這也是為什么許多企業(yè)級(jí)應(yīng)用始終停留在輔助層，而無法成為核心決策系統(tǒng)的原因。

很明顯，從“語義理解”到“物理推理”之間，始終存在一道鴻溝。而這道鴻溝已經(jīng)成為AI落地產(chǎn)業(yè)的第一攔路虎。

可以說這是世界模型被關(guān)注的底層原因，而更為直接的原因，其實(shí)是具身智能的發(fā)展已經(jīng)到了瓶頸期。

作為AI進(jìn)入真實(shí)世界，通往AGI的載體，該領(lǐng)域在近兩年可謂是香餑餑的存在，大量資金涌入，各個(gè)領(lǐng)域的玩家下場(chǎng)布局。這一局面下，市場(chǎng)和資本根本不會(huì)給他喘息的機(jī)會(huì)，其急需破局，尋找新的技術(shù)突破口。

而世界模型，給出了全新的解法，或者說一個(gè)新的技術(shù)敘事，讓企業(yè)繼續(xù)講好這個(gè)故事。

世界模型本質(zhì)是一個(gè)“可學(xué)習(xí)的物理模擬器和渲染引擎”。AI不需要依靠文字，而是通過視覺、3D運(yùn)動(dòng)、甚至觸覺的“視覺思維鏈”，去預(yù)測(cè)如果采取行動(dòng)A，物理環(huán)境會(huì)發(fā)生什么改變B。

可以說，LLM給AI帶來了人類積攢了幾千年的語言、邏輯與文明成果；而世界模型，則賦予了AI一雙能夠看懂時(shí)空、感受重力、理解現(xiàn)實(shí)的眼睛。是讓AI這門技術(shù)真正轉(zhuǎn)化為生產(chǎn)力的必經(jīng)之路。

二、不同陣營(yíng)的物理 AI 卡位戰(zhàn)，搶占下一份生產(chǎn)力入口

如果說上一階段的大模型競(jìng)爭(zhēng)比的是文本的理解與生成，那么世界模型這一輪，競(jìng)爭(zhēng)的核心已經(jīng)演變?yōu)槿绾螌I帶進(jìn)一個(gè)可計(jì)算、可交互、可訓(xùn)練的物理世界。當(dāng)前產(chǎn)業(yè)界對(duì)世界模型的集體押注，其實(shí)是各行各業(yè)在迫切尋找AI的下一份生產(chǎn)力入口。

然而必須承認(rèn)，世界模型遠(yuǎn)未成熟，它既非統(tǒng)一的技術(shù)路線，也非短期內(nèi)能替代大語言模型的萬靈藥，甚至連定義都沒統(tǒng)一思想。

比如在最近的智源大會(huì)上，智源研究院院長(zhǎng)王仲遠(yuǎn)提出以語言為中心(LLM/VLM/VLA)、以像素為中心(視頻生成,如Sora的誤用源頭)、以三維結(jié)構(gòu)為中心(3D重建)、以視覺表征為軸心的世界模型四大分類；

李飛飛及其World Labs團(tuán)隊(duì)給出的分類方式則不同，在其發(fā)布文章中，提出了渲染器、模擬器、規(guī)劃器三類世界模型功能框架。

但即使如此，業(yè)內(nèi)仍是處在一種由不同行業(yè)從各自優(yōu)勢(shì)場(chǎng)景出發(fā)、向“理解物理世界”靠攏的產(chǎn)業(yè)初試階段。在這場(chǎng)由淺入深的遷徙中，不同背景的玩家正憑借各自的產(chǎn)業(yè)邏輯，欲想敲開世界模型的大門。

最先動(dòng)起來的是視頻生成派。

這一派的底氣來自于手握全行業(yè)最強(qiáng)的視頻生成引擎。生數(shù)科技、阿里的 HappyOyster、快手可靈、字節(jié) Seedance 以及海外的 Sora、Runway 構(gòu)成了第一支力量。這種趨勢(shì)離不開AR-DiT 等實(shí)時(shí)交互技術(shù)的突破。過去，這類模型只能生成不可交互的“電影”，而隨著 AR-DiT 等實(shí)時(shí)交互技術(shù)的突破，視頻模型開始轉(zhuǎn)向動(dòng)作驅(qū)動(dòng)的逐幀生成，讓“文生視頻”往“可驅(qū)動(dòng)的視頻世界”抬了一步。

不過，這一路線的隱患在于，它學(xué)到的是畫面連貫而非物理為真，背后缺乏真實(shí)的三維結(jié)構(gòu)，時(shí)間一長(zhǎng)極易穿幫。

空間智能玩家則針鋒相對(duì)，其主張“先重建，再理解”。

代表力量是李飛飛的 World Labs 和國(guó)內(nèi)的群核科技。騰訊混元也憑借海量游戲數(shù)據(jù)切入這條路，將開放世界地圖的建模周期從數(shù)月壓到十幾分鐘，直接沖擊游戲工業(yè)。而群核科技則作為底層的“賣水人”，從十余年家裝軟件中沉淀出數(shù)億個(gè)物理正確的真實(shí)設(shè)計(jì)數(shù)據(jù)，為具身智能公司供給虛擬訓(xùn)練場(chǎng)。

真正對(duì)世界模型表現(xiàn)出極度需求的，是具身智能領(lǐng)域。

要知道，機(jī)器人最大的痛點(diǎn)是真實(shí)數(shù)據(jù)匱乏，而世界模型恰好能讓機(jī)器人在“想象”里反復(fù)演練技能，再用少量真實(shí)數(shù)據(jù)微調(diào)。這也解釋了為何大額資金開始瘋狂對(duì)準(zhǔn)有“世界模型”標(biāo)簽的企業(yè)。

不過，這也是路線分歧最深的一支。比如極佳視界主張?jiān)谔摂M空間里通過想象學(xué)技能；智元和星海圖致力于補(bǔ)齊仿真平臺(tái)等基礎(chǔ)設(shè)施；AMI Labs 試圖繞開像素、在抽象隱空間里預(yù)測(cè)未來；而千尋智能則明確反其道而行，放棄高能耗的逐幀預(yù)測(cè)，用更少參數(shù)做輕量化預(yù)訓(xùn)練。目前，各條路線正走向技術(shù)融合，世界模型正在復(fù)制大語言模型的劇本，充當(dāng)起具身智能的“預(yù)訓(xùn)練”階段。

與機(jī)器人的長(zhǎng)周期相比，車企與智駕廠商則把世界模型直接開上了路，成為了離錢最近的陣營(yíng)。

智駕是最早握有海量真實(shí)路測(cè)數(shù)據(jù)和明確付費(fèi)場(chǎng)景的領(lǐng)域。加上自動(dòng)駕駛仿真已經(jīng)是世界模型最成熟、且已落地的應(yīng)用，用其批量合成罕見的危險(xiǎn)場(chǎng)景做測(cè)試，效率比純堆路測(cè)高出一個(gè)數(shù)量級(jí)。

站在這個(gè)角度來看，視頻派從像素進(jìn)、空間派從幾何進(jìn)、具身派從動(dòng)作進(jìn)、車企從場(chǎng)景進(jìn)，本質(zhì)上是不同行業(yè)根據(jù)自身場(chǎng)景向物理AI收斂的幾個(gè)必然階梯。短期看創(chuàng)意設(shè)計(jì)最快變現(xiàn)，中期看智能駕駛拉開差距，長(zhǎng)期看，世界模型的終局絕非某一個(gè)單一的產(chǎn)品，而是未來連接數(shù)據(jù)、仿真與行動(dòng)的物理AI基礎(chǔ)設(shè)施。它是AI從數(shù)字世界走向物理世界時(shí)必須補(bǔ)上的關(guān)鍵中間層。

而當(dāng)這些產(chǎn)業(yè)入口被逐一跑通，市場(chǎng)的競(jìng)爭(zhēng)勢(shì)必會(huì)向產(chǎn)業(yè)鏈深處沉降。

三、下一代 AI 公司，理解世界、模擬世界、行動(dòng)于世界

世界模型之所以重要，不只是因?yàn)樗砹艘粭l新的模型路線，更因?yàn)樗诎袮I的戰(zhàn)場(chǎng)從屏幕、文本和軟件界面，推向汽車、機(jī)器人、工廠、倉庫、建筑、城市和家庭。

大語言模型可以先在云端完成訓(xùn)練，再通過API、辦公軟件、搜索、客服、代碼工具等入口擴(kuò)散。它的主要戰(zhàn)場(chǎng)是數(shù)字世界。但世界模型的目標(biāo)不是回答問題，而是預(yù)測(cè)、生成、干預(yù)和改造物理世界。它天然要進(jìn)入汽車、機(jī)器人、工廠、倉庫、建筑、游戲引擎、空間設(shè)計(jì)軟件和XR設(shè)備。

這意味著，世界模型的競(jìng)爭(zhēng)不會(huì)停留在誰的模型參數(shù)更大、誰的視頻更逼真、誰的榜單分?jǐn)?shù)更高。真正的競(jìng)爭(zhēng)會(huì)發(fā)生在產(chǎn)業(yè)鏈深處，比如誰擁有高質(zhì)量物理數(shù)據(jù)，誰掌握仿真和評(píng)測(cè)平臺(tái)，誰能連接真實(shí)設(shè)備，誰能在真實(shí)場(chǎng)景中形成反饋閉環(huán)。

換句話說，世界模型是AI進(jìn)入物理世界時(shí)必須重建的一套基礎(chǔ)設(shè)施。

過去的大模型產(chǎn)業(yè)棧相對(duì)清晰，底層是芯片和云，中間是基礎(chǔ)模型，上層是應(yīng)用和Agent。但世界模型把這條鏈條拉長(zhǎng)了。未來物理AI的技術(shù)棧，可能會(huì)變成物理數(shù)據(jù)采集、數(shù)據(jù)清洗與合成、世界表示層、世界基礎(chǔ)模型層、仿真與評(píng)測(cè)層、行動(dòng)模型層、部署反饋層。

這條鏈條一旦形成，世界模型就不再只是“生成內(nèi)容的AI”，而會(huì)成為物理AI時(shí)代的操作系統(tǒng)。它往下連接芯片、傳感器和機(jī)器人本體，往上連接Agent、行業(yè)軟件和企業(yè)業(yè)務(wù)系統(tǒng)；它一邊接收真實(shí)世界數(shù)據(jù)，一邊生成可訓(xùn)練、可驗(yàn)證、可部署的虛擬世界。它的位置，類似于大語言模型時(shí)代的基礎(chǔ)模型，但產(chǎn)業(yè)嵌入程度會(huì)更深，因?yàn)樗仨毢臀锢碓O(shè)備、工程流程、行業(yè)標(biāo)準(zhǔn)、安全驗(yàn)證綁定在一起。

因此，世界模型的真正意義，其實(shí)是讓AI第一次具備系統(tǒng)性進(jìn)入物理產(chǎn)業(yè)的可能。

這也讓中國(guó)公司在這一輪競(jìng)爭(zhēng)中更值得關(guān)注。

在物理AI時(shí)代，競(jìng)爭(zhēng)變量會(huì)發(fā)生變化。模型能力仍然重要，但場(chǎng)景密度、工程能力、供應(yīng)鏈協(xié)同、本體制造、行業(yè)交付和客戶反饋同樣重要。

這恰恰是中國(guó)公司的優(yōu)勢(shì)區(qū)間。中國(guó)擁有全球最完整的制造業(yè)體系、最復(fù)雜的城市交通場(chǎng)景、增長(zhǎng)最快的機(jī)器人產(chǎn)業(yè)鏈、龐大的新能源車市場(chǎng)，以及大量真實(shí)空間和工業(yè)場(chǎng)景。這些都是世界模型最需要的物理數(shù)據(jù)來源和落地土壤。

換句話說，世界模型的競(jìng)爭(zhēng)不會(huì)只發(fā)生在實(shí)驗(yàn)室和云端，也會(huì)發(fā)生在車間、道路、倉庫、門店、住宅、工地和城市基礎(chǔ)設(shè)施中。誰能更快把模型接入這些場(chǎng)景，誰能更快獲得真實(shí)反饋，誰就有可能建立更強(qiáng)的工程閉環(huán)和數(shù)據(jù)飛輪。

這意味著，下一代AI公司未必只誕生在擁有最大參數(shù)、最多論文和最強(qiáng)算力的地方，也可能誕生在真實(shí)場(chǎng)景最密集、產(chǎn)業(yè)反饋?zhàn)铑l繁、工程迭代最快的地方。因?yàn)锳I真正改變世界的方式，不是停留在屏幕里回答世界，而是進(jìn)入產(chǎn)業(yè)現(xiàn)場(chǎng)，理解世界、模擬世界、行動(dòng)于世界，并最終提升世界的運(yùn)行效率。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.