文 | 產(chǎn)業(yè)家
下一代AI公司未必只誕生在擁有最大參數(shù)、最多論文和最強(qiáng)算力的地方,也可能誕生在真實(shí)場(chǎng)景最密集、產(chǎn)業(yè)反饋?zhàn)铑l繁、工程迭代最快的地方。因?yàn)锳I真正改變世界的方式,不是停留在屏幕里回答世界,而是進(jìn)入產(chǎn)業(yè)現(xiàn)場(chǎng),理解世界、模擬世界、行動(dòng)于世界,并最終提升世界的運(yùn)行效率。
AI似乎正在集體“逃離”純文本,全面挺進(jìn)由重力、動(dòng)量、幾何空間構(gòu)成的真實(shí)物理世界。
1月8日,北京智源研究院發(fā)布《2026十大AI技術(shù)趨勢(shì)》,將世界模型列為通向AGI的重要共識(shí)方向,并提出從Next Token Prediction(預(yù)測(cè)下一個(gè)詞)向Next State Prediction(預(yù)測(cè)世界的下一個(gè)狀態(tài))的范式遷移。
隨后幾個(gè)月里,產(chǎn)業(yè)界的動(dòng)作密集得幾乎令人目不暇接。
首先是原本涌向具身智能的大額資金,開始對(duì)準(zhǔn)有“世界模型”標(biāo)簽的企業(yè)。
3月份,極佳視界完成約15億元融資,同月,極佳視界的GigaWorld-1在WorldArena評(píng)測(cè)中登頂,成為全球唯一綜合得分突破60分的具身世界模型,成績(jī)超過谷歌、英偉達(dá)和阿里。從今年3月份到如今,吸金35億,被市場(chǎng)稱為“國(guó)內(nèi)首個(gè)世界模型獨(dú)角獸”;
![]()
除此之外,智平方(AI2 Robotics)B 輪系列融資超 10 億元,估值過百億;具身基座公司千尋智能,2026 年開年三個(gè)月內(nèi)完成四輪融資、吸金 45 億元;做世界模型 Fast-WAM 的星海圖,繼 2 月近 10 億元 B 輪后,4 月再拿近 20 億元 B+ 輪;
二級(jí)市場(chǎng)也表現(xiàn)出類似的“偏愛”。
4月17日,“物理 AI”新股群核科技,作為全球首家以空間智能為核心技術(shù)底座的上市公司,上市即獲得市場(chǎng),上市首日大漲 144%;與此同時(shí),生數(shù)科技兩個(gè)月累計(jì)融資26億元,投后估值超過120億元,并傳出最快于2026年啟動(dòng)港股IPO的消息。
值得注意的是,這倆家企業(yè)的技術(shù)路線恰是通往世界模型的路徑之一。
各個(gè)領(lǐng)域的玩家們也蠢蠢欲動(dòng)。4月16日,騰訊和阿里在同一天各自發(fā)布了一款世界模型產(chǎn)品。騰訊拿出的是開源的混元 3D 世界模型 2.0(HY-World 2.0),阿里端出的是主打?qū)崟r(shí)交互的 HappyOyster。
車企的動(dòng)作更加激進(jìn)。吉利發(fā)布WAM世界行為模型,試圖統(tǒng)一智駕、智能座艙和底盤控制;華為乾崑公開拒絕 VLA,堅(jiān)持其 WA(World Action)路線,車 BU 負(fù)責(zé)人直言"VLA 看著聰明,但不是自動(dòng)駕駛的真正解";Momenta 則把寶押在世界模型上。
機(jī)器人領(lǐng)域,英偉達(dá)Cosmos、DreamGen、DreamZero相繼推出,智元發(fā)布GE-2,星海圖也開始布局世界模型基礎(chǔ)設(shè)施。
海外同樣熱火朝天。
圖靈獎(jiǎng)得主Yann LeCun,在執(zhí)掌Meta AI多年后,于不久前選擇自立門戶,創(chuàng)立了專注于世界模型的 AMI Labs,并在2026年3月一舉斬獲了創(chuàng)紀(jì)錄的10.3億美元巨額種子輪融資。并放出話,“現(xiàn)有的LLM路線徹底錯(cuò)了,單純靠預(yù)測(cè)文本,AI永遠(yuǎn)無法觸及人類級(jí)別的智能。我們需要能理解物理現(xiàn)實(shí)的模型。”
李飛飛創(chuàng)立的World Labs于2月完成10億美元融資,累計(jì)融資額達(dá)到12.3億美元,估值約50億美元,首款商業(yè)產(chǎn)品Marble正式上線;就在最近,OpenAI也正式宣布進(jìn)入機(jī)器人賽道。
一二級(jí)市場(chǎng)的資金、頂尖的科學(xué)家以及跨界巨頭,正以較高的密度向一個(gè)詞低頭,那就是世界模型。
而世界模型,又是為什么突然成為所有人的必爭(zhēng)之地?
一、Scaling Law 放慢,行業(yè)開始尋找語言之外的答案
AI 巨頭的新共識(shí):只靠文本似乎到不了 AGI。
過去幾年,大語言模型遵循著一個(gè)簡(jiǎn)單而有效的邏輯,那就是預(yù)測(cè)下一個(gè)詞。這種機(jī)制帶來了驚人的能力躍遷。模型不斷刷新認(rèn)知能力邊界,也讓整個(gè)行業(yè)相信,只要繼續(xù)擴(kuò)大參數(shù)、增加數(shù)據(jù)、堆積算力,AGI終將到來。
但2026年,一個(gè)越來越難以回避的問題出現(xiàn)了。那就是Scaling Law開始失靈。
以O(shè)penAI為例,其在GPT-4.5系統(tǒng)卡中稱GPT-4.5是“l(fā)argest and most knowledgeable model yet”,且“scales pre-training further”;但在SWE-bench Verified上,GPT-4.5 post-mitigation只有38%,只比GPT-4o高2%–7%,并且比Deep Research低30%。
![]()
這意味著,在其模型迭代中,“更大預(yù)訓(xùn)練”仍有提升,但已不是最有效的能力來源。
與此同時(shí),數(shù)據(jù)墻開始出現(xiàn)。互聯(lián)網(wǎng)高質(zhì)量文本數(shù)據(jù)幾乎被采集殆盡。Epoch AI估計(jì),可用于AI訓(xùn)練的高質(zhì)量、重復(fù)調(diào)整后的人類公共文本約300萬億token;若趨勢(shì)繼續(xù),語言模型將在2026—2032年之間完全用盡這部分存量。
![]()
而即便擁有全世界最大的語料庫,其實(shí)也無法讓AI真正理解什么是重力、摩擦力、慣性和空間關(guān)系。
原因并不復(fù)雜,語料庫記錄的是人類如何描述世界,而不是物體如何在世界中運(yùn)動(dòng)。物理常識(shí)在文本中天然稀缺,因?yàn)槿藗兺ǔ2粫?huì)反復(fù)寫下“杯子會(huì)掉下去”“輪子會(huì)滾動(dòng)”“濕地會(huì)打滑”這樣的常識(shí);這導(dǎo)致大型預(yù)訓(xùn)練模型在這類物理常識(shí)題上能力較低。
多模態(tài)模型也沒有徹底解決這個(gè)問題。
BLINK基準(zhǔn)顯示,人類幾乎一眼就能完成的深度、空間對(duì)應(yīng)、多視角推理任務(wù),GPT-4V平均只有51.26%,Gemini只有45.72%,離隨機(jī)猜測(cè)并不遠(yuǎn)。
![]()
PhysBench進(jìn)一步把測(cè)試擴(kuò)展到摩擦、密度、張力、彈性、運(yùn)動(dòng)、碰撞、投擲和流體等真實(shí)物理維度;在75個(gè)視覺語言模型、10002條測(cè)試樣本上,研究者發(fā)現(xiàn)物理理解并不會(huì)隨著模型大小、訓(xùn)練數(shù)據(jù)量或視頻幀數(shù)穩(wěn)定提升。換言之,AI即使讀遍互聯(lián)網(wǎng)上關(guān)于“重力”的文字,仍可能不知道一個(gè)球?yàn)槭裁床荒軕{空消失、為什么物體不能穿墻、為什么運(yùn)動(dòng)必須連續(xù)。
這種局限性,最終體現(xiàn)為企業(yè)落地AI時(shí)最頭疼的問題,那就是幻覺。
一個(gè)事實(shí)是,在金融、醫(yī)療、工業(yè)等高容錯(cuò)成本場(chǎng)景中,LLM依然無法建立穩(wěn)定可靠的物理因果推理能力。這也是為什么許多企業(yè)級(jí)應(yīng)用始終停留在輔助層,而無法成為核心決策系統(tǒng)的原因。
很明顯,從“語義理解”到“物理推理”之間,始終存在一道鴻溝。而這道鴻溝已經(jīng)成為AI落地產(chǎn)業(yè)的第一攔路虎。
可以說這是世界模型被關(guān)注的底層原因,而更為直接的原因,其實(shí)是具身智能的發(fā)展已經(jīng)到了瓶頸期。
作為AI進(jìn)入真實(shí)世界,通往AGI的載體,該領(lǐng)域在近兩年可謂是香餑餑的存在,大量資金涌入,各個(gè)領(lǐng)域的玩家下場(chǎng)布局。這一局面下,市場(chǎng)和資本根本不會(huì)給他喘息的機(jī)會(huì),其急需破局,尋找新的技術(shù)突破口。
而世界模型,給出了全新的解法,或者說一個(gè)新的技術(shù)敘事,讓企業(yè)繼續(xù)講好這個(gè)故事。
世界模型本質(zhì)是一個(gè)“可學(xué)習(xí)的物理模擬器和渲染引擎”。AI不需要依靠文字,而是通過視覺、3D運(yùn)動(dòng)、甚至觸覺的“視覺思維鏈”,去預(yù)測(cè)如果采取行動(dòng)A,物理環(huán)境會(huì)發(fā)生什么改變B。
可以說,LLM給AI帶來了人類積攢了幾千年的語言、邏輯與文明成果;而世界模型,則賦予了AI一雙能夠看懂時(shí)空、感受重力、理解現(xiàn)實(shí)的眼睛。是讓AI這門技術(shù)真正轉(zhuǎn)化為生產(chǎn)力的必經(jīng)之路。
二、不同陣營(yíng)的物理 AI 卡位戰(zhàn),搶占下一份生產(chǎn)力入口
如果說上一階段的大模型競(jìng)爭(zhēng)比的是文本的理解與生成,那么世界模型這一輪,競(jìng)爭(zhēng)的核心已經(jīng)演變?yōu)槿绾螌I帶進(jìn)一個(gè)可計(jì)算、可交互、可訓(xùn)練的物理世界。當(dāng)前產(chǎn)業(yè)界對(duì)世界模型的集體押注,其實(shí)是各行各業(yè)在迫切尋找AI的下一份生產(chǎn)力入口。
然而必須承認(rèn),世界模型遠(yuǎn)未成熟,它既非統(tǒng)一的技術(shù)路線,也非短期內(nèi)能替代大語言模型的萬靈藥,甚至連定義都沒統(tǒng)一思想。
比如在最近的智源大會(huì)上,智源研究院院長(zhǎng)王仲遠(yuǎn)提出以語言為中心(LLM/VLM/VLA)、以像素為中心(視頻生成,如Sora的誤用源頭)、以三維結(jié)構(gòu)為中心(3D重建)、以視覺表征為軸心的世界模型四大分類;
李飛飛及其World Labs團(tuán)隊(duì)給出的分類方式則不同,在其發(fā)布文章中,提出了渲染器、模擬器、規(guī)劃器三類世界模型功能框架。
![]()
但即使如此,業(yè)內(nèi)仍是處在一種由不同行業(yè)從各自優(yōu)勢(shì)場(chǎng)景出發(fā)、向“理解物理世界”靠攏的產(chǎn)業(yè)初試階段。在這場(chǎng)由淺入深的遷徙中,不同背景的玩家正憑借各自的產(chǎn)業(yè)邏輯,欲想敲開世界模型的大門。
最先動(dòng)起來的是視頻生成派。
這一派的底氣來自于手握全行業(yè)最強(qiáng)的視頻生成引擎。生數(shù)科技、阿里的 HappyOyster、快手可靈、字節(jié) Seedance 以及海外的 Sora、Runway 構(gòu)成了第一支力量。這種趨勢(shì)離不開AR-DiT 等實(shí)時(shí)交互技術(shù)的突破。過去,這類模型只能生成不可交互的“電影”,而隨著 AR-DiT 等實(shí)時(shí)交互技術(shù)的突破,視頻模型開始轉(zhuǎn)向動(dòng)作驅(qū)動(dòng)的逐幀生成,讓“文生視頻”往“可驅(qū)動(dòng)的視頻世界”抬了一步。
不過,這一路線的隱患在于,它學(xué)到的是畫面連貫而非物理為真,背后缺乏真實(shí)的三維結(jié)構(gòu),時(shí)間一長(zhǎng)極易穿幫。
空間智能玩家則針鋒相對(duì),其主張“先重建,再理解”。
代表力量是李飛飛的 World Labs 和國(guó)內(nèi)的群核科技。騰訊混元也憑借海量游戲數(shù)據(jù)切入這條路,將開放世界地圖的建模周期從數(shù)月壓到十幾分鐘,直接沖擊游戲工業(yè)。而群核科技則作為底層的“賣水人”,從十余年家裝軟件中沉淀出數(shù)億個(gè)物理正確的真實(shí)設(shè)計(jì)數(shù)據(jù),為具身智能公司供給虛擬訓(xùn)練場(chǎng)。
真正對(duì)世界模型表現(xiàn)出極度需求的,是具身智能領(lǐng)域。
要知道,機(jī)器人最大的痛點(diǎn)是真實(shí)數(shù)據(jù)匱乏,而世界模型恰好能讓機(jī)器人在“想象”里反復(fù)演練技能,再用少量真實(shí)數(shù)據(jù)微調(diào)。這也解釋了為何大額資金開始瘋狂對(duì)準(zhǔn)有“世界模型”標(biāo)簽的企業(yè)。
不過,這也是路線分歧最深的一支。比如極佳視界主張?jiān)谔摂M空間里通過想象學(xué)技能;智元和星海圖致力于補(bǔ)齊仿真平臺(tái)等基礎(chǔ)設(shè)施;AMI Labs 試圖繞開像素、在抽象隱空間里預(yù)測(cè)未來;而千尋智能則明確反其道而行,放棄高能耗的逐幀預(yù)測(cè),用更少參數(shù)做輕量化預(yù)訓(xùn)練。目前,各條路線正走向技術(shù)融合,世界模型正在復(fù)制大語言模型的劇本,充當(dāng)起具身智能的“預(yù)訓(xùn)練”階段。
與機(jī)器人的長(zhǎng)周期相比,車企與智駕廠商則把世界模型直接開上了路,成為了離錢最近的陣營(yíng)。
智駕是最早握有海量真實(shí)路測(cè)數(shù)據(jù)和明確付費(fèi)場(chǎng)景的領(lǐng)域。加上自動(dòng)駕駛仿真已經(jīng)是世界模型最成熟、且已落地的應(yīng)用,用其批量合成罕見的危險(xiǎn)場(chǎng)景做測(cè)試,效率比純堆路測(cè)高出一個(gè)數(shù)量級(jí)。
站在這個(gè)角度來看,視頻派從像素進(jìn)、空間派從幾何進(jìn)、具身派從動(dòng)作進(jìn)、車企從場(chǎng)景進(jìn),本質(zhì)上是不同行業(yè)根據(jù)自身場(chǎng)景向物理AI收斂的幾個(gè)必然階梯。短期看創(chuàng)意設(shè)計(jì)最快變現(xiàn),中期看智能駕駛拉開差距,長(zhǎng)期看,世界模型的終局絕非某一個(gè)單一的產(chǎn)品,而是未來連接數(shù)據(jù)、仿真與行動(dòng)的物理AI基礎(chǔ)設(shè)施。它是AI從數(shù)字世界走向物理世界時(shí)必須補(bǔ)上的關(guān)鍵中間層。
而當(dāng)這些產(chǎn)業(yè)入口被逐一跑通,市場(chǎng)的競(jìng)爭(zhēng)勢(shì)必會(huì)向產(chǎn)業(yè)鏈深處沉降。
三、下一代 AI 公司,理解世界、模擬世界、行動(dòng)于世界
世界模型之所以重要,不只是因?yàn)樗砹艘粭l新的模型路線,更因?yàn)樗诎袮I的戰(zhàn)場(chǎng)從屏幕、文本和軟件界面,推向汽車、機(jī)器人、工廠、倉庫、建筑、城市和家庭。
大語言模型可以先在云端完成訓(xùn)練,再通過API、辦公軟件、搜索、客服、代碼工具等入口擴(kuò)散。它的主要戰(zhàn)場(chǎng)是數(shù)字世界。但世界模型的目標(biāo)不是回答問題,而是預(yù)測(cè)、生成、干預(yù)和改造物理世界。它天然要進(jìn)入汽車、機(jī)器人、工廠、倉庫、建筑、游戲引擎、空間設(shè)計(jì)軟件和XR設(shè)備。
這意味著,世界模型的競(jìng)爭(zhēng)不會(huì)停留在誰的模型參數(shù)更大、誰的視頻更逼真、誰的榜單分?jǐn)?shù)更高。真正的競(jìng)爭(zhēng)會(huì)發(fā)生在產(chǎn)業(yè)鏈深處,比如誰擁有高質(zhì)量物理數(shù)據(jù),誰掌握仿真和評(píng)測(cè)平臺(tái),誰能連接真實(shí)設(shè)備,誰能在真實(shí)場(chǎng)景中形成反饋閉環(huán)。
換句話說,世界模型是AI進(jìn)入物理世界時(shí)必須重建的一套基礎(chǔ)設(shè)施。
過去的大模型產(chǎn)業(yè)棧相對(duì)清晰,底層是芯片和云,中間是基礎(chǔ)模型,上層是應(yīng)用和Agent。但世界模型把這條鏈條拉長(zhǎng)了。未來物理AI的技術(shù)棧,可能會(huì)變成物理數(shù)據(jù)采集、數(shù)據(jù)清洗與合成、世界表示層、世界基礎(chǔ)模型層、仿真與評(píng)測(cè)層、行動(dòng)模型層、部署反饋層。
![]()
這條鏈條一旦形成,世界模型就不再只是“生成內(nèi)容的AI”,而會(huì)成為物理AI時(shí)代的操作系統(tǒng)。它往下連接芯片、傳感器和機(jī)器人本體,往上連接Agent、行業(yè)軟件和企業(yè)業(yè)務(wù)系統(tǒng);它一邊接收真實(shí)世界數(shù)據(jù),一邊生成可訓(xùn)練、可驗(yàn)證、可部署的虛擬世界。它的位置,類似于大語言模型時(shí)代的基礎(chǔ)模型,但產(chǎn)業(yè)嵌入程度會(huì)更深,因?yàn)樗仨毢臀锢碓O(shè)備、工程流程、行業(yè)標(biāo)準(zhǔn)、安全驗(yàn)證綁定在一起。
因此,世界模型的真正意義,其實(shí)是讓AI第一次具備系統(tǒng)性進(jìn)入物理產(chǎn)業(yè)的可能。
這也讓中國(guó)公司在這一輪競(jìng)爭(zhēng)中更值得關(guān)注。
在物理AI時(shí)代,競(jìng)爭(zhēng)變量會(huì)發(fā)生變化。模型能力仍然重要,但場(chǎng)景密度、工程能力、供應(yīng)鏈協(xié)同、本體制造、行業(yè)交付和客戶反饋同樣重要。
這恰恰是中國(guó)公司的優(yōu)勢(shì)區(qū)間。中國(guó)擁有全球最完整的制造業(yè)體系、最復(fù)雜的城市交通場(chǎng)景、增長(zhǎng)最快的機(jī)器人產(chǎn)業(yè)鏈、龐大的新能源車市場(chǎng),以及大量真實(shí)空間和工業(yè)場(chǎng)景。這些都是世界模型最需要的物理數(shù)據(jù)來源和落地土壤。
換句話說,世界模型的競(jìng)爭(zhēng)不會(huì)只發(fā)生在實(shí)驗(yàn)室和云端,也會(huì)發(fā)生在車間、道路、倉庫、門店、住宅、工地和城市基礎(chǔ)設(shè)施中。誰能更快把模型接入這些場(chǎng)景,誰能更快獲得真實(shí)反饋,誰就有可能建立更強(qiáng)的工程閉環(huán)和數(shù)據(jù)飛輪。
這意味著,下一代AI公司未必只誕生在擁有最大參數(shù)、最多論文和最強(qiáng)算力的地方,也可能誕生在真實(shí)場(chǎng)景最密集、產(chǎn)業(yè)反饋?zhàn)铑l繁、工程迭代最快的地方。因?yàn)锳I真正改變世界的方式,不是停留在屏幕里回答世界,而是進(jìn)入產(chǎn)業(yè)現(xiàn)場(chǎng),理解世界、模擬世界、行動(dòng)于世界,并最終提升世界的運(yùn)行效率。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.