![]()
出品|虎嗅科技組
作者|宋思杭
編輯|苗正卿
頭圖|《華爾街之狼》劇照
虎嗅注:世界模型是屬于00后的任務(wù)。在具身智能、世界模型行業(yè),我們已經(jīng)看到了太多00后和“天才少年”。而今天我們聊的這個(gè)團(tuán)隊(duì),也幾乎全部由00后組成,他們也是當(dāng)下估值最高的AI圈00后團(tuán)隊(duì)之一。“AI原生100”是虎嗅科技組推出針對(duì)AI原生創(chuàng)新欄目,這是本系列的第「58」篇文章。
00后陳博遠(yuǎn)今年剛從北大元培畢業(yè),他另一個(gè)身份是逆矩陣創(chuàng)始人。
2026年初,尚未畢業(yè)的陳博遠(yuǎn)創(chuàng)立了逆矩陣,首輪即獲得高瓴和北大系基金超千萬(wàn)美元投資,到今天,這家公司即將完成新一輪過(guò)億美元融資,估值超50億元人民幣。
這也是“00后創(chuàng)立的AI公司”中,估值最高的公司之一。
“大家都希望看到年輕人在AI時(shí)代下做出一些不一樣的創(chuàng)新突破。”陳博遠(yuǎn)對(duì)虎嗅說(shuō)道
陳博遠(yuǎn)的團(tuán)隊(duì)在做的事情是“通用世界基座模型”,他們的英文名字叫Physis。Physis(φ?σι?)是physics(物理)的希臘詞根,通常譯為“自然”,其更本源的詞義是“生長(zhǎng)、生成”——指向回到自然與物理的本源去理解世界如何運(yùn)轉(zhuǎn)。
故事回溯到逆矩陣還未成立的時(shí)候,陳博遠(yuǎn)還是北大元培學(xué)生期間便已嶄露頭角,當(dāng)時(shí),他就已經(jīng)憑借強(qiáng)化學(xué)習(xí)和大模型的研究獲得ACL最佳論文;與此同時(shí),那一屆ACL中,內(nèi)地另外一篇最佳論文則來(lái)自DeepSeek團(tuán)隊(duì)。從某種意義上講,這個(gè)團(tuán)隊(duì)曾經(jīng)還和DeepSeek“并肩”過(guò)。
關(guān)于通用世界基座模型,經(jīng)常有投資人提出質(zhì)疑。在陳博遠(yuǎn)看來(lái),“基模”這個(gè)概念如今放在行業(yè)似乎被誤解了。
“投資人在聽(tīng)到‘基模’這個(gè)詞的時(shí)候,會(huì)天然有一些偏見(jiàn)。因?yàn)樗麄円?jiàn)過(guò)很多團(tuán)隊(duì)只是拿開(kāi)源模型,用部分?jǐn)?shù)據(jù)做微調(diào),最后包裝成一個(gè)預(yù)訓(xùn)練故事。但實(shí)際上,我們是從頭開(kāi)始搭建整個(gè)預(yù)訓(xùn)練架構(gòu)。”陳博遠(yuǎn)對(duì)虎嗅解釋道。
而在融資速度上,逆矩陣并不算這個(gè)行業(yè)里最激進(jìn)的一批公司。“我們不急著融資,而是希望踏實(shí)做技術(shù)第一性的突破。”陳博遠(yuǎn)告訴虎嗅。
而這也是他與智源研究院結(jié)緣的原因。虎嗅獲悉,陳博遠(yuǎn)已于4月16日正式以逆矩陣創(chuàng)始人的身份,擔(dān)任智源研究院行為世界模型創(chuàng)新中心負(fù)責(zé)人,直接向智源研究院院長(zhǎng)王仲遠(yuǎn)匯報(bào)。
2025年11月,虎嗅曾與王仲遠(yuǎn)有過(guò)一次對(duì)話。當(dāng)時(shí)他告訴虎嗅,智源沒(méi)有太強(qiáng)的組織層級(jí);相比商業(yè)化,研究始終是更核心的事情。但在具身智能時(shí)代,智源同樣會(huì)背負(fù)一種使命——去成為一個(gè)類似Deepmind的角色。
目前,我們看到的大模型明星公司中,已經(jīng)有相當(dāng)一部分與智源研究院存在關(guān)聯(lián),包括銀河通用、智譜AI、月之暗面和面壁智能。其中,前三家公司估值均已超過(guò)百億元,智譜AI已完成上市。
行為世界模型創(chuàng)新中心是智源研究院專門(mén)設(shè)立的前沿創(chuàng)新中心,用于支持下一代通用世界基座模型的研發(fā)與創(chuàng)新,承擔(dān)更大規(guī)模、更系統(tǒng)的前沿攻堅(jiān)。陳博遠(yuǎn)以逆矩陣創(chuàng)始人的身份,兼任這一中心的負(fù)責(zé)人,聚焦通用世界基座模型最底層的探索與前沿試驗(yàn),并將已經(jīng)驗(yàn)證的世界模型能力放大到更通用、更大規(guī)模的場(chǎng)景里去落地。兩個(gè)角色彼此賦能、互為支撐,推動(dòng)同一件事:讓AI真正理解物理規(guī)律。技術(shù)愿景是統(tǒng)一的,凝聚共同的力量去逼近同一個(gè)目標(biāo)。
近期,虎嗅與逆矩陣創(chuàng)始人陳博遠(yuǎn)進(jìn)行了深入對(duì)話。我們談到了通用世界基座模型與垂類世界模型的概念、區(qū)別與聯(lián)系;世界模型目前存在的卡點(diǎn),以及世界基座模型如何解決具身智能所缺失的數(shù)據(jù)問(wèn)題;當(dāng)然,也包括這個(gè)平均年齡00后的團(tuán)隊(duì)本身。
以下為虎嗅和陳博遠(yuǎn)的精選對(duì)話:
“世界模型一定會(huì)迎來(lái)自己的GPT-3時(shí)刻”
虎嗅:你們做的是通用世界基座模型。但現(xiàn)在行業(yè)里,很多公司都在講“世界模型”,而且每家的定義都不太一樣。所以我想知道,逆矩陣現(xiàn)在做的這個(gè)“通用世界基座模型”,核心到底是什么?背后的行業(yè)洞察又是什么?為什么你們會(huì)選擇做這件事?
陳博遠(yuǎn):我覺(jué)得這個(gè)問(wèn)題非常關(guān)鍵。現(xiàn)在行業(yè)里幾乎anything is a world model(一切皆是世界模型),所有人都在講世界模型。但我認(rèn)為,世界模型今天其實(shí)還處于一個(gè)“百家爭(zhēng)鳴”的階段。我們更想回到第一性原理去看這件事。
過(guò)去幾年,大語(yǔ)言模型讓AI學(xué)會(huì)了處理文本和知識(shí),但AI未來(lái)一定會(huì)從虛擬世界走向真實(shí)的物理世界。無(wú)論是游戲物理,還是工業(yè)產(chǎn)線,本質(zhì)上都處在一個(gè)連續(xù)、不確定、且受到復(fù)雜物理約束的環(huán)境里。
在這個(gè)過(guò)程中,AI不僅要理解文字,還需要真正理解重力、接觸、因果等物理規(guī)律,它們其實(shí)共享同一個(gè)底層事實(shí):對(duì)于物理一致性和物理正確性的要求,是硬約束。
同時(shí),一個(gè)場(chǎng)景里學(xué)到的物理規(guī)律,本身也是可以遷移的。物理定律不會(huì)因?yàn)閳?chǎng)景變化而改變。
所以我們的核心判斷是:未來(lái)一定會(huì)出現(xiàn)一個(gè)能夠跨場(chǎng)景遷移的通用物理世界模型,它會(huì)成為AI走向物理世界的基礎(chǔ)設(shè)施。
現(xiàn)在行業(yè)里的很多世界模型關(guān)注于解決特定場(chǎng)景的問(wèn)題。有人做3D世界模型,有人做游戲世界模型,也有人做具身世界模型。但我們更強(qiáng)調(diào)的是,不同垂類場(chǎng)景背后的物理規(guī)律,其實(shí)是通用的。
就像今天的大語(yǔ)言模型,可以同時(shí)處理金融、法律、代碼等不同任務(wù)。我們也希望未來(lái)存在一個(gè)通用的世界基座模型,再基于它去適配不同下游場(chǎng)景。
虎嗅:那么,通用世界基座模型和“世界模型”本身,它們的區(qū)別和聯(lián)系是什么?以及為什么你一定要強(qiáng)調(diào)“基座”這兩個(gè)字?
陳博遠(yuǎn):我覺(jué)得可以類比自動(dòng)駕駛。自動(dòng)駕駛會(huì)有L0到L5的分級(jí)。L0到L2,本質(zhì)上還是需要大量人工干預(yù);而L3以上,其實(shí)代表的是一個(gè)自主性能力的階躍,不只是技術(shù)能力變化,也意味著應(yīng)用市場(chǎng)的擴(kuò)大。
世界模型其實(shí)也會(huì)存在類似的W0到W5體系。現(xiàn)在行業(yè)里很多所謂的世界模型,本質(zhì)上還停留在W0或者W1階段。
比如OpenAI在Sora時(shí)期提出“世界模擬器”概念,很多視頻生成模型,本質(zhì)上是在學(xué)習(xí)世界的連貫表征,生成流暢、好看的視頻;再比如谷歌的Genie 3這類可交互世界模型,它已經(jīng)能夠響應(yīng)動(dòng)作交互,但本質(zhì)上還是偏“游戲世界”。這類模型更多解決的是影視、游戲等內(nèi)容生成問(wèn)題。
但物理AI不只是游戲,也不只是影視。真正的嚴(yán)肅工業(yè)場(chǎng)景、具身智能、物理仿真、交互世界、科學(xué)預(yù)測(cè)科技計(jì)算、工業(yè)仿真、工業(yè)安全驗(yàn)證,面對(duì)的是大量復(fù)雜物理約束,它需要的是W2+模型。
W2最核心的特征,就是“真正懂物理”。所以我們強(qiáng)調(diào)“通用世界基座模型”,首先它必須是一個(gè)W2+模型;其次,它不只是解決某一個(gè)垂類場(chǎng)景,而是希望用同一套物理規(guī)律,去解決不同物理場(chǎng)景的問(wèn)題。
今天很多行業(yè)已經(jīng)有領(lǐng)域?qū)S玫氖澜缒P停热缱詣?dòng)駕駛世界模型。但它們往往只能解決單一場(chǎng)景的問(wèn)題。
而我們回到第一性原理會(huì)發(fā)現(xiàn),很多物理規(guī)律其實(shí)天然是通用的。它既是one for all,也是all for one。
不同物理場(chǎng)景的數(shù)據(jù)和學(xué)習(xí)過(guò)程,本質(zhì)上遵循的是同一套物理范式,所以不同場(chǎng)景之間其實(shí)能夠互相增強(qiáng)。最終,我們希望用一個(gè)統(tǒng)一的通用世界基座模型,在不同垂類場(chǎng)景里,達(dá)到比領(lǐng)域?qū)S媚P透玫男Ч?/p>
如果繼續(xù)往下劃分:
W2解決的是“物理專業(yè)性”;
W3解決的是“跨領(lǐng)域能力”;
W4才是真正意義上的通用泛化。
這其實(shí)有點(diǎn)像大語(yǔ)言模型的發(fā)展過(guò)程。
2023、2024年的時(shí)候,行業(yè)里還會(huì)強(qiáng)調(diào)金融大模型、法律大模型這些垂類模型;但隨著通用大模型能力提升,很多任務(wù)開(kāi)始被統(tǒng)一,zero-shot、few-shot就能泛化解決。
我們認(rèn)為,物理世界未來(lái)也會(huì)走向同樣的路徑。
虎嗅:有人認(rèn)為世界模型更接近Scaling Law這條路線,也有人堅(jiān)持做VLA。所以你覺(jué)得今天世界模型最大的卡點(diǎn)是什么?以及你們現(xiàn)在做的通用世界基座模型,卡點(diǎn)又是什么?
陳博遠(yuǎn):我覺(jué)得這是一個(gè)特別關(guān)鍵的問(wèn)題。
我們其實(shí)非常認(rèn)可Scaling Law背后的底層邏輯。大語(yǔ)言模型之所以成功,本質(zhì)上是因?yàn)樗系谝恍栽恚热鏽ext token prediction這種非常簡(jiǎn)單、統(tǒng)一的目標(biāo)。隨著數(shù)據(jù)量、模型規(guī)模提升,它就能不斷壓縮語(yǔ)言里的智能。
但世界模型沒(méi)辦法簡(jiǎn)單復(fù)用“大語(yǔ)言模型那套路徑”,原因有三個(gè)。
第一個(gè)是數(shù)據(jù)問(wèn)題。互聯(lián)網(wǎng)文本可以無(wú)限爬取,但物理交互數(shù)據(jù)不一樣。真正的物理數(shù)據(jù),要么來(lái)自真實(shí)世界采集,要么來(lái)自仿真構(gòu)建,它不是一個(gè)能無(wú)限堆積的數(shù)據(jù)體系。
第二個(gè)問(wèn)題是,像素不等于物理。今天很多世界模型還是建立在視頻、圖像這些視覺(jué)輸入上,但視頻里90%的信息其實(shí)是紋理、光照、運(yùn)動(dòng)模糊,這些東西和物理規(guī)律本身沒(méi)關(guān)系,反而會(huì)成為模型學(xué)習(xí)物理的負(fù)擔(dān)。模型花了大量參數(shù)去擬合“光長(zhǎng)什么樣”,但這并不是核心矛盾。
第三個(gè)問(wèn)題,也是最核心的問(wèn)題:相關(guān)性不等于因果性。大語(yǔ)言模型本質(zhì)上是一種“觀察式學(xué)習(xí)”。你見(jiàn)過(guò)越多數(shù)據(jù),就越容易學(xué)習(xí)相關(guān)性。但物理世界真正重要的是因果。
所以僅靠觀察,模型學(xué)到的是統(tǒng)計(jì)相關(guān)性,而不是真正的物理因果。因此,我們認(rèn)為通用世界基座模型一定會(huì)走一條新的Scaling路徑。真正的Scaling,不應(yīng)該發(fā)生在token空間或者像素空間,而應(yīng)該發(fā)生在“物理隱空間”。
也就是說(shuō),我們需要模型學(xué)習(xí)一種更加抽象的物理表征。這有點(diǎn)像人類的大腦。比如我們看到一個(gè)杯子快倒了,會(huì)自然預(yù)測(cè)水可能怎么灑出來(lái)。這個(gè)過(guò)程,本質(zhì)上就是一種高維物理隱空間里的推演。
第二個(gè)關(guān)鍵點(diǎn),是必須原生引入Action。因?yàn)槲锢砝斫獗旧韥?lái)自交互,而不僅僅是觀察。比如你不去搬一個(gè)東西,就無(wú)法真正理解它的重量;不去掰一個(gè)物體,就無(wú)法理解它的剛性。所以世界模型不能只是“看世界”,它必須“和世界交互”。
模型需要學(xué)習(xí)的是:“在當(dāng)前狀態(tài)下,我采取動(dòng)作A,會(huì)導(dǎo)致什么物理狀態(tài);采取動(dòng)作B,又會(huì)導(dǎo)致什么結(jié)果。”也就是從“next token prediction”,轉(zhuǎn)向“next physical state prediction”。
第三個(gè)關(guān)鍵點(diǎn),是驗(yàn)證。為什么數(shù)學(xué)、代碼、圍棋這些領(lǐng)域能快速提升?因?yàn)樗鼈兛沈?yàn)證。強(qiáng)化學(xué)習(xí)之所以有效,本質(zhì)上就是因?yàn)榇嬖诿鞔_獎(jiǎng)勵(lì)信號(hào)。而物理世界其實(shí)同樣是可驗(yàn)證的。
比如物體不會(huì)憑空消失、不會(huì)違反光滑性約束,這些都可以被驗(yàn)證。
所以我們認(rèn)為,強(qiáng)化學(xué)習(xí)會(huì)是學(xué)習(xí)物理規(guī)律最高效的方法。最終,我們的路徑其實(shí)是一個(gè)閉環(huán):在物理隱空間里做壓縮;原生引入動(dòng)作交互;再通過(guò)強(qiáng)化學(xué)習(xí)完成驗(yàn)證。
我們內(nèi)部已經(jīng)觀察到這樣一條曲線存在:隨著數(shù)據(jù)規(guī)模、模型參數(shù)量提升,當(dāng)模型開(kāi)始引入Action和強(qiáng)化學(xué)習(xí)之后,它在預(yù)測(cè)“下一個(gè)物理狀態(tài)”時(shí),泛化誤差會(huì)持續(xù)下降,甚至開(kāi)始出現(xiàn)類似“涌現(xiàn)”的能力。
所以我一直認(rèn)為,世界模型未來(lái)一定會(huì)迎來(lái)自己的“GPT-3時(shí)刻”。
但這個(gè)時(shí)刻,不會(huì)是某個(gè)Benchmark刷榜。而是當(dāng)模型真正能夠隨著算力、數(shù)據(jù)和交互規(guī)模提升,在真實(shí)物理世界里持續(xù)提升能力的時(shí)候。那才是世界模型真正屬于自己的Scaling Law。
“世界基座模型不需要太多的真機(jī)數(shù)據(jù)”
虎嗅:現(xiàn)在行業(yè)里很多人都會(huì)覺(jué)得,具身智能真正有效的數(shù)據(jù)其實(shí)并不多。那我剛剛聽(tīng)下來(lái),通用世界基座模型對(duì)于數(shù)據(jù)的要求可能會(huì)更高一些。你們到底需要什么樣的數(shù)據(jù)?它和VLA、傳統(tǒng)世界模型所需要的數(shù)據(jù)有什么區(qū)別?
陳博遠(yuǎn):現(xiàn)在很多人也在做自己的具身世界模型,它們主要依賴真機(jī)數(shù)據(jù),微調(diào)機(jī)器人的動(dòng)作輸入輸出,從而實(shí)現(xiàn)控制能力。
但對(duì)于通用世界基座模型來(lái)說(shuō),真機(jī)數(shù)據(jù)固然重要,但它不是唯一的數(shù)據(jù)來(lái)源。
我可以做一個(gè)類比。人類學(xué)習(xí)數(shù)學(xué)的時(shí)候,也不是一開(kāi)始就學(xué)微積分,而是先學(xué)1+1=2,再學(xué)平面坐標(biāo)系,最后才進(jìn)入更復(fù)雜的體系。
物理規(guī)律的學(xué)習(xí)其實(shí)也是一樣,它存在一個(gè)“從易到難”的過(guò)程。比如仿真引擎、游戲引擎、虛幻引擎里的數(shù)據(jù),雖然場(chǎng)景不同,但背后很多物理規(guī)則其實(shí)是共通的。無(wú)論是《荒野大鏢客》還是《塞爾達(dá)》,一個(gè)擊打動(dòng)作背后,本質(zhì)上都是人類手寫(xiě)的簡(jiǎn)化物理規(guī)則。
這些規(guī)則可能只是真實(shí)物理世界50%或者70%的映射,但它能夠成為學(xué)習(xí)真實(shí)物理規(guī)律的鋪墊。所以我們第一件事,就是建立一個(gè)從仿真到真實(shí)世界的數(shù)據(jù)躍遷過(guò)程。
第二個(gè)關(guān)鍵點(diǎn),是跨領(lǐng)域數(shù)據(jù)。因?yàn)閷?duì)于通用世界基座模型來(lái)說(shuō),它本質(zhì)上是一個(gè)“all for one”的問(wèn)題。不同場(chǎng)景背后反映的真實(shí)物理規(guī)律其實(shí)是一致的。
我們內(nèi)部發(fā)現(xiàn),當(dāng)引入跨場(chǎng)景數(shù)據(jù)之后,在某一個(gè)垂類場(chǎng)景里,數(shù)據(jù)需求量甚至能夠降低20倍,但效果反而更好。因?yàn)槟P蛯W(xué)到的是更通用的物理規(guī)律,而不是某個(gè)特定硬件、本體或者場(chǎng)景里的“偽規(guī)律”。如果只依賴單一場(chǎng)景數(shù)據(jù),其實(shí)很容易過(guò)擬合。
第三個(gè)關(guān)鍵點(diǎn),是長(zhǎng)尾物理數(shù)據(jù)。物理規(guī)律很多時(shí)候恰恰發(fā)生在稀疏和突變場(chǎng)景里。比如YouTube、B站每天會(huì)產(chǎn)生大量視頻,但其中真正包含物理交互的數(shù)據(jù)比例其實(shí)非常低。可能只有5%的視頻包含抓取、拿取等簡(jiǎn)單交互,而像玻璃破碎、爆炸這種強(qiáng)物理變化場(chǎng)景,可能只有0.5%。
但恰恰是這些“突變”,最能體現(xiàn)真實(shí)物理規(guī)律。
所以我們?cè)谧鲱A(yù)訓(xùn)練時(shí),會(huì)重點(diǎn)篩選那些具有動(dòng)態(tài)交互屬性的視頻,而不是簡(jiǎn)單堆數(shù)據(jù)量。
同時(shí),我們也在構(gòu)建自己的數(shù)據(jù)飛輪。比如通過(guò)仿真引擎、數(shù)字孿生渲染,主動(dòng)生成一些現(xiàn)實(shí)世界里很難采集到的強(qiáng)物理數(shù)據(jù)。舉個(gè)例子,一個(gè)杯子放在桌子上,被外力撞倒——這種場(chǎng)景在真實(shí)世界里很難大規(guī)模采集,但我們可以在仿真環(huán)境里不斷生成。這些稀疏、邊緣、強(qiáng)物理屬性的數(shù)據(jù),其實(shí)對(duì)通用世界基座模型非常重要。
虎嗅:你們現(xiàn)在做通用世界基座模型時(shí),使用的數(shù)據(jù)的比例大概是多少?
陳博遠(yuǎn):如果從視角的維度來(lái)看,我們更關(guān)注的其實(shí)是第一人稱(egocentric)數(shù)據(jù)和多視角(multi-view)數(shù)據(jù)之間的配比。我們內(nèi)部目前探索出來(lái)的比例,大概是9:1,甚至10:1。而且我們認(rèn)為,未來(lái)這個(gè)比例甚至可能擴(kuò)展到100:1。
之所以這么看重第一人稱視角,是因?yàn)閑gocentric本質(zhì)上代表了拍攝主體和視角交互的過(guò)程——“我采取了什么動(dòng)作,世界相應(yīng)發(fā)生了什么變化”。它天然帶有Action→State的因果結(jié)構(gòu),這正是世界模型最需要的信號(hào)。而多視角數(shù)據(jù)更多是從外部去觀察同一個(gè)場(chǎng)景,更偏向補(bǔ)全空間結(jié)構(gòu)和狀態(tài)表征。
虎嗅:我們假設(shè)未來(lái)第一人稱數(shù)據(jù)和多視角數(shù)據(jù)能達(dá)到100:1,那是不是意味著,對(duì)那個(gè)“1”的要求會(huì)非常高?而且這里真正高質(zhì)量的交互數(shù)據(jù),應(yīng)該更多來(lái)自真實(shí)工業(yè)場(chǎng)景,而不是實(shí)驗(yàn)室,對(duì)嗎?
陳博遠(yuǎn):對(duì),那個(gè)"1"的質(zhì)量要求確實(shí)非常高。
不過(guò)其實(shí)今天行業(yè)里的很多數(shù)據(jù),還沒(méi)有真正走到"實(shí)驗(yàn)室數(shù)據(jù)"和"工業(yè)場(chǎng)景數(shù)據(jù)"之間的區(qū)別這一步。當(dāng)然這步很重要。因?yàn)楦绲膯?wèn)題是,很多真實(shí)采集來(lái)的數(shù)據(jù)本身質(zhì)量還不夠高。比如采集過(guò)程中會(huì)存在大量噪音、硬件誤差,以及設(shè)備和真實(shí)物理世界之間的不匹配。現(xiàn)在很多動(dòng)捕設(shè)備、手套設(shè)備,本質(zhì)上都還是"近似真實(shí)",它和真正的物理交互之間仍然有g(shù)ap。
也正因?yàn)檫@樣,我們才會(huì)特別看重第一人稱視角的數(shù)據(jù)——它直接來(lái)自交互主體本身,能比較真實(shí)地反映"動(dòng)作導(dǎo)致?tīng)顟B(tài)變化"這個(gè)過(guò)程,而不是隔著設(shè)備去近似。
在此基礎(chǔ)上,我們會(huì)把整個(gè)數(shù)據(jù)體系總結(jié)成一個(gè)“三層金字塔”。
第一層,是學(xué)習(xí)世界里“有哪些狀態(tài)”。比如水會(huì)流動(dòng)、物體能被抓起、玻璃會(huì)破碎。這一層主要依賴大量真實(shí)世界視頻,以及復(fù)雜交互場(chǎng)景數(shù)據(jù)。
第二層,是學(xué)習(xí)“什么動(dòng)作會(huì)導(dǎo)致什么狀態(tài)變化”。也就是Action→State。這一層的本質(zhì)是在構(gòu)造因果。這也是為什么我們尤其需要大量第一人稱(egocentric)數(shù)據(jù),同時(shí)輔以仿真數(shù)據(jù)、真機(jī)數(shù)據(jù)。因?yàn)閑gocentric代表了拍攝主體和視角交互的過(guò)程,天然就帶有Action→State的因果屬性,是構(gòu)造因果最直接的來(lái)源。
第三層,則是長(zhǎng)尾和稀疏物理規(guī)律。因?yàn)檎鎸?shí)物理世界很多關(guān)鍵規(guī)律,都發(fā)生在突變場(chǎng)景里。比如玻璃爆炸、物體遮擋、復(fù)雜空間關(guān)系等等。這一層我們會(huì)引入大量第三人稱視頻,以及數(shù)據(jù)飛輪生成的稀疏物理場(chǎng)景。
而且我們內(nèi)部發(fā)現(xiàn),這一層的數(shù)據(jù)量甚至不需要很多。可能只占前兩層的1%,甚至0.5%,就能帶來(lái)很明顯的空間理解和泛化能力提升。
因?yàn)楫?dāng)模型已經(jīng)建立起比較通用的物理規(guī)律之后,再去補(bǔ)充這些稀疏數(shù)據(jù),它的學(xué)習(xí)效率會(huì)非常高。
而且最重要的是,我們整個(gè)模型訓(xùn)練過(guò)程并不是“被動(dòng)觀察數(shù)據(jù)”。模型始終在學(xué)習(xí):“什么Action,會(huì)導(dǎo)致什么下一狀態(tài)。”
這也是為什么我們認(rèn)為,基于數(shù)據(jù)金字塔、交互和強(qiáng)化學(xué)習(xí),世界模型會(huì)形成一條和大語(yǔ)言模型完全不同的Scaling曲線。
屬于00后的“Aha Moment”
虎嗅:逆矩陣是什么時(shí)候成立的?現(xiàn)在大概到了一個(gè)什么階段?
陳博遠(yuǎn):逆矩陣是今年年初正式成立的。但實(shí)際上,我們從2025年初就已經(jīng)開(kāi)始做面向真實(shí)物理世界的世界基座模型這件事了。現(xiàn)在我們已經(jīng)看到了一些Scaling up的潛力,以及一些真正的“aha moment”。
整個(gè)團(tuán)隊(duì)目前大概30人。我們凝聚了一批非常年輕、但能力很強(qiáng)的人。包括來(lái)自北大、清華的一些奧賽背景成員,也有不少來(lái)自大廠的核心工程師。
虎嗅:在擔(dān)任智源中心負(fù)責(zé)人之前,你們已經(jīng)開(kāi)始融資了嗎?整體和投資人交流下來(lái)的感受是什么?
陳博遠(yuǎn):投資人最常問(wèn)我們的,其實(shí)有兩個(gè)問(wèn)題。第一個(gè)是:你們是不是在做真正的“基模”?第二個(gè)是:你們到底看到了什么,才決定做這件事?我們的答案,其實(shí)來(lái)自內(nèi)部實(shí)驗(yàn)。
我們已經(jīng)觀察到,隨著數(shù)據(jù)量、參數(shù)規(guī)模提升,以及引入主動(dòng)交互和狀態(tài)預(yù)測(cè)之后,模型誤差還在持續(xù)下降。所以我一直認(rèn)為,一旦世界模型的Scaling Law開(kāi)始形成行業(yè)共識(shí),技術(shù)路線會(huì)迅速收斂。
我自己特別欣賞兩家公司:DeepSeek和DeepMind。因?yàn)檎嬲膭?chuàng)新,很多時(shí)候都來(lái)自這種研究型組織。一個(gè)方向可能一開(kāi)始只有兩三個(gè)人、幾個(gè)idea,但會(huì)不斷Scaling up,最后產(chǎn)生真正底層的突破。
我們也相信,扁平化組織本身是能夠“涌現(xiàn)”創(chuàng)新的。
虎嗅:投資人經(jīng)常會(huì)問(wèn)“基模”這個(gè)事情。你會(huì)覺(jué)得,是你們做的事情被誤解了,還是“基模”這個(gè)概念本身被誤解了?
陳博遠(yuǎn):我覺(jué)得更多是“基模”這個(gè)概念被誤解了。“基座模型”這個(gè)詞,從一開(kāi)始出現(xiàn),本質(zhì)上就是希望通過(guò)一套模型解決不同場(chǎng)景的問(wèn)題。
但過(guò)去幾年,“基模”這個(gè)詞被濫用了。就拿具身智能舉例,投資人稱見(jiàn)過(guò)很多團(tuán)隊(duì)其實(shí)只是基于開(kāi)源視頻模型或者開(kāi)源語(yǔ)言模型,再微調(diào)一些自己的真機(jī)數(shù)據(jù),最后包裝成一個(gè)“預(yù)訓(xùn)練”的故事。
但我們做的,是從頭開(kāi)始做整個(gè)預(yù)訓(xùn)練架構(gòu)。也就是說(shuō),我們真正想做的是一個(gè)通用世界基座模型,而不是一個(gè)微調(diào)后的垂類模型。
虎嗅:你擔(dān)任智源世界模型中心負(fù)責(zé)人。投資人怎么看這件事?
陳博遠(yuǎn):逆矩陣更偏前沿探索,我們會(huì)不斷去擴(kuò)展一些新的技術(shù)方向;而在智源,我們會(huì)把已經(jīng)驗(yàn)證出的世界模型能力,進(jìn)一步放到更大規(guī)模、更通用的場(chǎng)景里做實(shí)驗(yàn)和落地。
但本質(zhì)上,大家都在做同一件事:如何構(gòu)建真正面向物理世界的通用基座模型。
虎嗅:所以我能不能理解為,智源也希望在Physical AI時(shí)代,再次“押中”像月之暗面、智譜AI、面壁智能這樣的公司?
陳博遠(yuǎn):對(duì),我覺(jué)得智源一直都非常重視人才和前沿研究,而且它始終是站在全球視野里看AI范式變化的。
虎嗅:所以你們團(tuán)隊(duì)年齡基本都是00后?
陳博遠(yuǎn):對(duì),雖然我們團(tuán)隊(duì)平均年齡在00后,不過(guò)我更愿意稱之為凝聚了一個(gè)“心態(tài)年輕化”的團(tuán)隊(duì),無(wú)論是原大廠核心工程師,還是科研青年們,大家都是非常有沖勁的。因?yàn)槲覀儼l(fā)現(xiàn),做這種全新的事情,需要敢于打破路徑依賴,融合不同技術(shù)背景去做出底層的第一性突破。
虎嗅:現(xiàn)在做Physical AI的產(chǎn)業(yè),其實(shí)聚集了很多00后。它看起來(lái)很像一個(gè)“屬于00后的時(shí)代”。
陳博遠(yuǎn):我不太想簡(jiǎn)單地把它定義成“屬于00后的時(shí)代”。Physical AI應(yīng)該屬于所有真正相信這個(gè)方向、愿意長(zhǎng)期投入、敢于做底層探索的人,而不只是屬于某一個(gè)年齡段。
但更重要的是,Physical AI不只是一個(gè)技術(shù)熱點(diǎn)。我們?cè)絹?lái)越相信,AGI的下一步一定要走向真實(shí)物理世界。過(guò)去的大模型主要理解語(yǔ)言、圖像和數(shù)字信息,而未來(lái)的世界模型需要理解真實(shí)物理世界背后的約束,理解物體如何運(yùn)動(dòng)、碰撞如何發(fā)生、能量如何轉(zhuǎn)化,以及行動(dòng)如何改變環(huán)境。只有這樣,AI才能真正進(jìn)入具身智能、工業(yè)仿真、游戲引擎、AI for Science等場(chǎng)景。
再往前看,Physical AI也和國(guó)家未來(lái)的新質(zhì)生產(chǎn)力高度相關(guān)。低空經(jīng)濟(jì)、商業(yè)航天、智能制造、能源系統(tǒng)、可控核聚變等方向,本質(zhì)上都需要AI更深地理解物理規(guī)律、復(fù)雜系統(tǒng)和真實(shí)世界的因果關(guān)系。我們真正想做的,不只是一個(gè)服務(wù)某個(gè)垂直場(chǎng)景的模型,而是面向整個(gè)物理世界的通用世界模型,為未來(lái)更多實(shí)體產(chǎn)業(yè)提供底層能力。
與其說(shuō)這是一個(gè)“屬于00后的時(shí)代”,不如說(shuō)這是一個(gè)屬于所有相信Physical AI、敢于做底層探索、愿意為國(guó)家未來(lái)產(chǎn)業(yè)基礎(chǔ)能力負(fù)責(zé)的人的時(shí)代。
本文來(lái)自虎嗅,原文鏈接:https://www.huxiu.com/article/4871588.html?f=wyxwapp
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.