網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

這個(gè)00后憑什么拿到高瓴們的1億美元

2026-07-01 17:20:23　來(lái)源: 虎嗅APP

北京舉報(bào)

分享至

出品｜虎嗅科技組

作者｜宋思杭

編輯｜苗正卿

頭圖｜《華爾街之狼》劇照

虎嗅注：世界模型是屬于00后的任務(wù)。在具身智能、世界模型行業(yè)，我們已經(jīng)看到了太多00后和“天才少年”。而今天我們聊的這個(gè)團(tuán)隊(duì)，也幾乎全部由00后組成，他們也是當(dāng)下估值最高的AI圈00后團(tuán)隊(duì)之一。“AI原生100”是虎嗅科技組推出針對(duì)AI原生創(chuàng)新欄目，這是本系列的第「58」篇文章。

00后陳博遠(yuǎn)今年剛從北大元培畢業(yè)，他另一個(gè)身份是逆矩陣創(chuàng)始人。

2026年初，尚未畢業(yè)的陳博遠(yuǎn)創(chuàng)立了逆矩陣，首輪即獲得高瓴和北大系基金超千萬(wàn)美元投資，到今天，這家公司即將完成新一輪過(guò)億美元融資，估值超50億元人民幣。

這也是“00后創(chuàng)立的AI公司”中，估值最高的公司之一。

“大家都希望看到年輕人在AI時(shí)代下做出一些不一樣的創(chuàng)新突破。”陳博遠(yuǎn)對(duì)虎嗅說(shuō)道

陳博遠(yuǎn)的團(tuán)隊(duì)在做的事情是“通用世界基座模型”，他們的英文名字叫Physis。Physis（φ?σι?）是physics（物理）的希臘詞根，通常譯為“自然”，其更本源的詞義是“生長(zhǎng)、生成”——指向回到自然與物理的本源去理解世界如何運(yùn)轉(zhuǎn)。

故事回溯到逆矩陣還未成立的時(shí)候，陳博遠(yuǎn)還是北大元培學(xué)生期間便已嶄露頭角，當(dāng)時(shí)，他就已經(jīng)憑借強(qiáng)化學(xué)習(xí)和大模型的研究獲得ACL最佳論文；與此同時(shí)，那一屆ACL中，內(nèi)地另外一篇最佳論文則來(lái)自DeepSeek團(tuán)隊(duì)。從某種意義上講，這個(gè)團(tuán)隊(duì)曾經(jīng)還和DeepSeek“并肩”過(guò)。

關(guān)于通用世界基座模型，經(jīng)常有投資人提出質(zhì)疑。在陳博遠(yuǎn)看來(lái)，“基模”這個(gè)概念如今放在行業(yè)似乎被誤解了。

“投資人在聽(tīng)到‘基模’這個(gè)詞的時(shí)候，會(huì)天然有一些偏見(jiàn)。因?yàn)樗麄円?jiàn)過(guò)很多團(tuán)隊(duì)只是拿開(kāi)源模型，用部分?jǐn)?shù)據(jù)做微調(diào)，最后包裝成一個(gè)預(yù)訓(xùn)練故事。但實(shí)際上，我們是從頭開(kāi)始搭建整個(gè)預(yù)訓(xùn)練架構(gòu)。”陳博遠(yuǎn)對(duì)虎嗅解釋道。

而在融資速度上，逆矩陣并不算這個(gè)行業(yè)里最激進(jìn)的一批公司。“我們不急著融資，而是希望踏實(shí)做技術(shù)第一性的突破。”陳博遠(yuǎn)告訴虎嗅。

而這也是他與智源研究院結(jié)緣的原因。虎嗅獲悉，陳博遠(yuǎn)已于4月16日正式以逆矩陣創(chuàng)始人的身份，擔(dān)任智源研究院行為世界模型創(chuàng)新中心負(fù)責(zé)人，直接向智源研究院院長(zhǎng)王仲遠(yuǎn)匯報(bào)。

2025年11月，虎嗅曾與王仲遠(yuǎn)有過(guò)一次對(duì)話。當(dāng)時(shí)他告訴虎嗅，智源沒(méi)有太強(qiáng)的組織層級(jí)；相比商業(yè)化，研究始終是更核心的事情。但在具身智能時(shí)代，智源同樣會(huì)背負(fù)一種使命——去成為一個(gè)類似Deepmind的角色。

目前，我們看到的大模型明星公司中，已經(jīng)有相當(dāng)一部分與智源研究院存在關(guān)聯(lián)，包括銀河通用、智譜AI、月之暗面和面壁智能。其中，前三家公司估值均已超過(guò)百億元，智譜AI已完成上市。

行為世界模型創(chuàng)新中心是智源研究院專門(mén)設(shè)立的前沿創(chuàng)新中心，用于支持下一代通用世界基座模型的研發(fā)與創(chuàng)新，承擔(dān)更大規(guī)模、更系統(tǒng)的前沿攻堅(jiān)。陳博遠(yuǎn)以逆矩陣創(chuàng)始人的身份，兼任這一中心的負(fù)責(zé)人，聚焦通用世界基座模型最底層的探索與前沿試驗(yàn)，并將已經(jīng)驗(yàn)證的世界模型能力放大到更通用、更大規(guī)模的場(chǎng)景里去落地。兩個(gè)角色彼此賦能、互為支撐，推動(dòng)同一件事：讓AI真正理解物理規(guī)律。技術(shù)愿景是統(tǒng)一的，凝聚共同的力量去逼近同一個(gè)目標(biāo)。

近期，虎嗅與逆矩陣創(chuàng)始人陳博遠(yuǎn)進(jìn)行了深入對(duì)話。我們談到了通用世界基座模型與垂類世界模型的概念、區(qū)別與聯(lián)系；世界模型目前存在的卡點(diǎn)，以及世界基座模型如何解決具身智能所缺失的數(shù)據(jù)問(wèn)題；當(dāng)然，也包括這個(gè)平均年齡00后的團(tuán)隊(duì)本身。

以下為虎嗅和陳博遠(yuǎn)的精選對(duì)話：

“世界模型一定會(huì)迎來(lái)自己的GPT-3時(shí)刻”

虎嗅：你們做的是通用世界基座模型。但現(xiàn)在行業(yè)里，很多公司都在講“世界模型”，而且每家的定義都不太一樣。所以我想知道，逆矩陣現(xiàn)在做的這個(gè)“通用世界基座模型”，核心到底是什么？背后的行業(yè)洞察又是什么？為什么你們會(huì)選擇做這件事？

陳博遠(yuǎn)：我覺(jué)得這個(gè)問(wèn)題非常關(guān)鍵。現(xiàn)在行業(yè)里幾乎anything is a world model（一切皆是世界模型），所有人都在講世界模型。但我認(rèn)為，世界模型今天其實(shí)還處于一個(gè)“百家爭(zhēng)鳴”的階段。我們更想回到第一性原理去看這件事。

過(guò)去幾年，大語(yǔ)言模型讓AI學(xué)會(huì)了處理文本和知識(shí)，但AI未來(lái)一定會(huì)從虛擬世界走向真實(shí)的物理世界。無(wú)論是游戲物理，還是工業(yè)產(chǎn)線，本質(zhì)上都處在一個(gè)連續(xù)、不確定、且受到復(fù)雜物理約束的環(huán)境里。

在這個(gè)過(guò)程中，AI不僅要理解文字，還需要真正理解重力、接觸、因果等物理規(guī)律，它們其實(shí)共享同一個(gè)底層事實(shí)：對(duì)于物理一致性和物理正確性的要求，是硬約束。

同時(shí)，一個(gè)場(chǎng)景里學(xué)到的物理規(guī)律，本身也是可以遷移的。物理定律不會(huì)因?yàn)閳?chǎng)景變化而改變。

所以我們的核心判斷是：未來(lái)一定會(huì)出現(xiàn)一個(gè)能夠跨場(chǎng)景遷移的通用物理世界模型，它會(huì)成為AI走向物理世界的基礎(chǔ)設(shè)施。

現(xiàn)在行業(yè)里的很多世界模型關(guān)注于解決特定場(chǎng)景的問(wèn)題。有人做3D世界模型，有人做游戲世界模型，也有人做具身世界模型。但我們更強(qiáng)調(diào)的是，不同垂類場(chǎng)景背后的物理規(guī)律，其實(shí)是通用的。

就像今天的大語(yǔ)言模型，可以同時(shí)處理金融、法律、代碼等不同任務(wù)。我們也希望未來(lái)存在一個(gè)通用的世界基座模型，再基于它去適配不同下游場(chǎng)景。

虎嗅：那么，通用世界基座模型和“世界模型”本身，它們的區(qū)別和聯(lián)系是什么？以及為什么你一定要強(qiáng)調(diào)“基座”這兩個(gè)字？

陳博遠(yuǎn)：我覺(jué)得可以類比自動(dòng)駕駛。自動(dòng)駕駛會(huì)有L0到L5的分級(jí)。L0到L2，本質(zhì)上還是需要大量人工干預(yù)；而L3以上，其實(shí)代表的是一個(gè)自主性能力的階躍，不只是技術(shù)能力變化，也意味著應(yīng)用市場(chǎng)的擴(kuò)大。

世界模型其實(shí)也會(huì)存在類似的W0到W5體系。現(xiàn)在行業(yè)里很多所謂的世界模型，本質(zhì)上還停留在W0或者W1階段。

比如OpenAI在Sora時(shí)期提出“世界模擬器”概念，很多視頻生成模型，本質(zhì)上是在學(xué)習(xí)世界的連貫表征，生成流暢、好看的視頻；再比如谷歌的Genie 3這類可交互世界模型，它已經(jīng)能夠響應(yīng)動(dòng)作交互，但本質(zhì)上還是偏“游戲世界”。這類模型更多解決的是影視、游戲等內(nèi)容生成問(wèn)題。

但物理AI不只是游戲，也不只是影視。真正的嚴(yán)肅工業(yè)場(chǎng)景、具身智能、物理仿真、交互世界、科學(xué)預(yù)測(cè)科技計(jì)算、工業(yè)仿真、工業(yè)安全驗(yàn)證，面對(duì)的是大量復(fù)雜物理約束，它需要的是W2+模型。

W2最核心的特征，就是“真正懂物理”。所以我們強(qiáng)調(diào)“通用世界基座模型”，首先它必須是一個(gè)W2+模型；其次，它不只是解決某一個(gè)垂類場(chǎng)景，而是希望用同一套物理規(guī)律，去解決不同物理場(chǎng)景的問(wèn)題。

今天很多行業(yè)已經(jīng)有領(lǐng)域?qū)Ｓ玫氖澜缒Ｐ停热缱詣?dòng)駕駛世界模型。但它們往往只能解決單一場(chǎng)景的問(wèn)題。

而我們回到第一性原理會(huì)發(fā)現(xiàn)，很多物理規(guī)律其實(shí)天然是通用的。它既是one for all，也是all for one。

不同物理場(chǎng)景的數(shù)據(jù)和學(xué)習(xí)過(guò)程，本質(zhì)上遵循的是同一套物理范式，所以不同場(chǎng)景之間其實(shí)能夠互相增強(qiáng)。最終，我們希望用一個(gè)統(tǒng)一的通用世界基座模型，在不同垂類場(chǎng)景里，達(dá)到比領(lǐng)域?qū)Ｓ媚Ｐ透玫男Ч?/p>

如果繼續(xù)往下劃分：

W2解決的是“物理專業(yè)性”；

W3解決的是“跨領(lǐng)域能力”；

W4才是真正意義上的通用泛化。

這其實(shí)有點(diǎn)像大語(yǔ)言模型的發(fā)展過(guò)程。

2023、2024年的時(shí)候，行業(yè)里還會(huì)強(qiáng)調(diào)金融大模型、法律大模型這些垂類模型；但隨著通用大模型能力提升，很多任務(wù)開(kāi)始被統(tǒng)一，zero-shot、few-shot就能泛化解決。

我們認(rèn)為，物理世界未來(lái)也會(huì)走向同樣的路徑。

虎嗅：有人認(rèn)為世界模型更接近Scaling Law這條路線，也有人堅(jiān)持做VLA。所以你覺(jué)得今天世界模型最大的卡點(diǎn)是什么？以及你們現(xiàn)在做的通用世界基座模型，卡點(diǎn)又是什么？

陳博遠(yuǎn)：我覺(jué)得這是一個(gè)特別關(guān)鍵的問(wèn)題。

我們其實(shí)非常認(rèn)可Scaling Law背后的底層邏輯。大語(yǔ)言模型之所以成功，本質(zhì)上是因?yàn)樗系谝恍栽恚热鏽ext token prediction這種非常簡(jiǎn)單、統(tǒng)一的目標(biāo)。隨著數(shù)據(jù)量、模型規(guī)模提升，它就能不斷壓縮語(yǔ)言里的智能。

但世界模型沒(méi)辦法簡(jiǎn)單復(fù)用“大語(yǔ)言模型那套路徑”，原因有三個(gè)。

第一個(gè)是數(shù)據(jù)問(wèn)題。互聯(lián)網(wǎng)文本可以無(wú)限爬取，但物理交互數(shù)據(jù)不一樣。真正的物理數(shù)據(jù)，要么來(lái)自真實(shí)世界采集，要么來(lái)自仿真構(gòu)建，它不是一個(gè)能無(wú)限堆積的數(shù)據(jù)體系。

第二個(gè)問(wèn)題是，像素不等于物理。今天很多世界模型還是建立在視頻、圖像這些視覺(jué)輸入上，但視頻里90%的信息其實(shí)是紋理、光照、運(yùn)動(dòng)模糊，這些東西和物理規(guī)律本身沒(méi)關(guān)系，反而會(huì)成為模型學(xué)習(xí)物理的負(fù)擔(dān)。模型花了大量參數(shù)去擬合“光長(zhǎng)什么樣”，但這并不是核心矛盾。

第三個(gè)問(wèn)題，也是最核心的問(wèn)題：相關(guān)性不等于因果性。大語(yǔ)言模型本質(zhì)上是一種“觀察式學(xué)習(xí)”。你見(jiàn)過(guò)越多數(shù)據(jù)，就越容易學(xué)習(xí)相關(guān)性。但物理世界真正重要的是因果。

所以僅靠觀察，模型學(xué)到的是統(tǒng)計(jì)相關(guān)性，而不是真正的物理因果。因此，我們認(rèn)為通用世界基座模型一定會(huì)走一條新的Scaling路徑。真正的Scaling，不應(yīng)該發(fā)生在token空間或者像素空間，而應(yīng)該發(fā)生在“物理隱空間”。

也就是說(shuō)，我們需要模型學(xué)習(xí)一種更加抽象的物理表征。這有點(diǎn)像人類的大腦。比如我們看到一個(gè)杯子快倒了，會(huì)自然預(yù)測(cè)水可能怎么灑出來(lái)。這個(gè)過(guò)程，本質(zhì)上就是一種高維物理隱空間里的推演。

第二個(gè)關(guān)鍵點(diǎn)，是必須原生引入Action。因?yàn)槲锢砝斫獗旧韥?lái)自交互，而不僅僅是觀察。比如你不去搬一個(gè)東西，就無(wú)法真正理解它的重量；不去掰一個(gè)物體，就無(wú)法理解它的剛性。所以世界模型不能只是“看世界”，它必須“和世界交互”。

模型需要學(xué)習(xí)的是：“在當(dāng)前狀態(tài)下，我采取動(dòng)作A，會(huì)導(dǎo)致什么物理狀態(tài)；采取動(dòng)作B，又會(huì)導(dǎo)致什么結(jié)果。”也就是從“next token prediction”，轉(zhuǎn)向“next physical state prediction”。

第三個(gè)關(guān)鍵點(diǎn)，是驗(yàn)證。為什么數(shù)學(xué)、代碼、圍棋這些領(lǐng)域能快速提升？因?yàn)樗鼈兛沈?yàn)證。強(qiáng)化學(xué)習(xí)之所以有效，本質(zhì)上就是因?yàn)榇嬖诿鞔_獎(jiǎng)勵(lì)信號(hào)。而物理世界其實(shí)同樣是可驗(yàn)證的。

比如物體不會(huì)憑空消失、不會(huì)違反光滑性約束，這些都可以被驗(yàn)證。

所以我們認(rèn)為，強(qiáng)化學(xué)習(xí)會(huì)是學(xué)習(xí)物理規(guī)律最高效的方法。最終，我們的路徑其實(shí)是一個(gè)閉環(huán)：在物理隱空間里做壓縮；原生引入動(dòng)作交互；再通過(guò)強(qiáng)化學(xué)習(xí)完成驗(yàn)證。

我們內(nèi)部已經(jīng)觀察到這樣一條曲線存在：隨著數(shù)據(jù)規(guī)模、模型參數(shù)量提升，當(dāng)模型開(kāi)始引入Action和強(qiáng)化學(xué)習(xí)之后，它在預(yù)測(cè)“下一個(gè)物理狀態(tài)”時(shí)，泛化誤差會(huì)持續(xù)下降，甚至開(kāi)始出現(xiàn)類似“涌現(xiàn)”的能力。

所以我一直認(rèn)為，世界模型未來(lái)一定會(huì)迎來(lái)自己的“GPT-3時(shí)刻”。

但這個(gè)時(shí)刻，不會(huì)是某個(gè)Benchmark刷榜。而是當(dāng)模型真正能夠隨著算力、數(shù)據(jù)和交互規(guī)模提升，在真實(shí)物理世界里持續(xù)提升能力的時(shí)候。那才是世界模型真正屬于自己的Scaling Law。

“世界基座模型不需要太多的真機(jī)數(shù)據(jù)”

虎嗅：現(xiàn)在行業(yè)里很多人都會(huì)覺(jué)得，具身智能真正有效的數(shù)據(jù)其實(shí)并不多。那我剛剛聽(tīng)下來(lái)，通用世界基座模型對(duì)于數(shù)據(jù)的要求可能會(huì)更高一些。你們到底需要什么樣的數(shù)據(jù)？它和VLA、傳統(tǒng)世界模型所需要的數(shù)據(jù)有什么區(qū)別？

陳博遠(yuǎn)：現(xiàn)在很多人也在做自己的具身世界模型，它們主要依賴真機(jī)數(shù)據(jù)，微調(diào)機(jī)器人的動(dòng)作輸入輸出，從而實(shí)現(xiàn)控制能力。

但對(duì)于通用世界基座模型來(lái)說(shuō)，真機(jī)數(shù)據(jù)固然重要，但它不是唯一的數(shù)據(jù)來(lái)源。

我可以做一個(gè)類比。人類學(xué)習(xí)數(shù)學(xué)的時(shí)候，也不是一開(kāi)始就學(xué)微積分，而是先學(xué)1+1=2，再學(xué)平面坐標(biāo)系，最后才進(jìn)入更復(fù)雜的體系。

物理規(guī)律的學(xué)習(xí)其實(shí)也是一樣，它存在一個(gè)“從易到難”的過(guò)程。比如仿真引擎、游戲引擎、虛幻引擎里的數(shù)據(jù)，雖然場(chǎng)景不同，但背后很多物理規(guī)則其實(shí)是共通的。無(wú)論是《荒野大鏢客》還是《塞爾達(dá)》，一個(gè)擊打動(dòng)作背后，本質(zhì)上都是人類手寫(xiě)的簡(jiǎn)化物理規(guī)則。

這些規(guī)則可能只是真實(shí)物理世界50%或者70%的映射，但它能夠成為學(xué)習(xí)真實(shí)物理規(guī)律的鋪墊。所以我們第一件事，就是建立一個(gè)從仿真到真實(shí)世界的數(shù)據(jù)躍遷過(guò)程。

第二個(gè)關(guān)鍵點(diǎn)，是跨領(lǐng)域數(shù)據(jù)。因?yàn)閷?duì)于通用世界基座模型來(lái)說(shuō)，它本質(zhì)上是一個(gè)“all for one”的問(wèn)題。不同場(chǎng)景背后反映的真實(shí)物理規(guī)律其實(shí)是一致的。

我們內(nèi)部發(fā)現(xiàn)，當(dāng)引入跨場(chǎng)景數(shù)據(jù)之后，在某一個(gè)垂類場(chǎng)景里，數(shù)據(jù)需求量甚至能夠降低20倍，但效果反而更好。因?yàn)槟Ｐ蛯W(xué)到的是更通用的物理規(guī)律，而不是某個(gè)特定硬件、本體或者場(chǎng)景里的“偽規(guī)律”。如果只依賴單一場(chǎng)景數(shù)據(jù)，其實(shí)很容易過(guò)擬合。

第三個(gè)關(guān)鍵點(diǎn)，是長(zhǎng)尾物理數(shù)據(jù)。物理規(guī)律很多時(shí)候恰恰發(fā)生在稀疏和突變場(chǎng)景里。比如YouTube、B站每天會(huì)產(chǎn)生大量視頻，但其中真正包含物理交互的數(shù)據(jù)比例其實(shí)非常低。可能只有5%的視頻包含抓取、拿取等簡(jiǎn)單交互，而像玻璃破碎、爆炸這種強(qiáng)物理變化場(chǎng)景，可能只有0.5%。

但恰恰是這些“突變”，最能體現(xiàn)真實(shí)物理規(guī)律。

所以我們?cè)谧鲱A(yù)訓(xùn)練時(shí)，會(huì)重點(diǎn)篩選那些具有動(dòng)態(tài)交互屬性的視頻，而不是簡(jiǎn)單堆數(shù)據(jù)量。

同時(shí)，我們也在構(gòu)建自己的數(shù)據(jù)飛輪。比如通過(guò)仿真引擎、數(shù)字孿生渲染，主動(dòng)生成一些現(xiàn)實(shí)世界里很難采集到的強(qiáng)物理數(shù)據(jù)。舉個(gè)例子，一個(gè)杯子放在桌子上，被外力撞倒——這種場(chǎng)景在真實(shí)世界里很難大規(guī)模采集，但我們可以在仿真環(huán)境里不斷生成。這些稀疏、邊緣、強(qiáng)物理屬性的數(shù)據(jù)，其實(shí)對(duì)通用世界基座模型非常重要。

虎嗅：你們現(xiàn)在做通用世界基座模型時(shí)，使用的數(shù)據(jù)的比例大概是多少？

陳博遠(yuǎn)：如果從視角的維度來(lái)看，我們更關(guān)注的其實(shí)是第一人稱（egocentric）數(shù)據(jù)和多視角（multi-view）數(shù)據(jù)之間的配比。我們內(nèi)部目前探索出來(lái)的比例，大概是9:1，甚至10:1。而且我們認(rèn)為，未來(lái)這個(gè)比例甚至可能擴(kuò)展到100:1。

之所以這么看重第一人稱視角，是因?yàn)閑gocentric本質(zhì)上代表了拍攝主體和視角交互的過(guò)程——“我采取了什么動(dòng)作，世界相應(yīng)發(fā)生了什么變化”。它天然帶有Action→State的因果結(jié)構(gòu)，這正是世界模型最需要的信號(hào)。而多視角數(shù)據(jù)更多是從外部去觀察同一個(gè)場(chǎng)景，更偏向補(bǔ)全空間結(jié)構(gòu)和狀態(tài)表征。

虎嗅：我們假設(shè)未來(lái)第一人稱數(shù)據(jù)和多視角數(shù)據(jù)能達(dá)到100:1，那是不是意味著，對(duì)那個(gè)“1”的要求會(huì)非常高？而且這里真正高質(zhì)量的交互數(shù)據(jù)，應(yīng)該更多來(lái)自真實(shí)工業(yè)場(chǎng)景，而不是實(shí)驗(yàn)室，對(duì)嗎？

陳博遠(yuǎn)：對(duì)，那個(gè)"1"的質(zhì)量要求確實(shí)非常高。

不過(guò)其實(shí)今天行業(yè)里的很多數(shù)據(jù)，還沒(méi)有真正走到"實(shí)驗(yàn)室數(shù)據(jù)"和"工業(yè)場(chǎng)景數(shù)據(jù)"之間的區(qū)別這一步。當(dāng)然這步很重要。因?yàn)楦绲膯?wèn)題是，很多真實(shí)采集來(lái)的數(shù)據(jù)本身質(zhì)量還不夠高。比如采集過(guò)程中會(huì)存在大量噪音、硬件誤差，以及設(shè)備和真實(shí)物理世界之間的不匹配。現(xiàn)在很多動(dòng)捕設(shè)備、手套設(shè)備，本質(zhì)上都還是"近似真實(shí)"，它和真正的物理交互之間仍然有g(shù)ap。

也正因?yàn)檫@樣，我們才會(huì)特別看重第一人稱視角的數(shù)據(jù)——它直接來(lái)自交互主體本身，能比較真實(shí)地反映"動(dòng)作導(dǎo)致?tīng)顟B(tài)變化"這個(gè)過(guò)程，而不是隔著設(shè)備去近似。

在此基礎(chǔ)上，我們會(huì)把整個(gè)數(shù)據(jù)體系總結(jié)成一個(gè)“三層金字塔”。

第一層，是學(xué)習(xí)世界里“有哪些狀態(tài)”。比如水會(huì)流動(dòng)、物體能被抓起、玻璃會(huì)破碎。這一層主要依賴大量真實(shí)世界視頻，以及復(fù)雜交互場(chǎng)景數(shù)據(jù)。

第二層，是學(xué)習(xí)“什么動(dòng)作會(huì)導(dǎo)致什么狀態(tài)變化”。也就是Action→State。這一層的本質(zhì)是在構(gòu)造因果。這也是為什么我們尤其需要大量第一人稱（egocentric）數(shù)據(jù)，同時(shí)輔以仿真數(shù)據(jù)、真機(jī)數(shù)據(jù)。因?yàn)閑gocentric代表了拍攝主體和視角交互的過(guò)程，天然就帶有Action→State的因果屬性，是構(gòu)造因果最直接的來(lái)源。

第三層，則是長(zhǎng)尾和稀疏物理規(guī)律。因?yàn)檎鎸?shí)物理世界很多關(guān)鍵規(guī)律，都發(fā)生在突變場(chǎng)景里。比如玻璃爆炸、物體遮擋、復(fù)雜空間關(guān)系等等。這一層我們會(huì)引入大量第三人稱視頻，以及數(shù)據(jù)飛輪生成的稀疏物理場(chǎng)景。

而且我們內(nèi)部發(fā)現(xiàn)，這一層的數(shù)據(jù)量甚至不需要很多。可能只占前兩層的1%，甚至0.5%，就能帶來(lái)很明顯的空間理解和泛化能力提升。

因?yàn)楫?dāng)模型已經(jīng)建立起比較通用的物理規(guī)律之后，再去補(bǔ)充這些稀疏數(shù)據(jù)，它的學(xué)習(xí)效率會(huì)非常高。

而且最重要的是，我們整個(gè)模型訓(xùn)練過(guò)程并不是“被動(dòng)觀察數(shù)據(jù)”。模型始終在學(xué)習(xí)：“什么Action，會(huì)導(dǎo)致什么下一狀態(tài)。”

這也是為什么我們認(rèn)為，基于數(shù)據(jù)金字塔、交互和強(qiáng)化學(xué)習(xí)，世界模型會(huì)形成一條和大語(yǔ)言模型完全不同的Scaling曲線。

屬于00后的“Aha Moment”

虎嗅：逆矩陣是什么時(shí)候成立的？現(xiàn)在大概到了一個(gè)什么階段？

陳博遠(yuǎn)：逆矩陣是今年年初正式成立的。但實(shí)際上，我們從2025年初就已經(jīng)開(kāi)始做面向真實(shí)物理世界的世界基座模型這件事了。現(xiàn)在我們已經(jīng)看到了一些Scaling up的潛力，以及一些真正的“aha moment”。

整個(gè)團(tuán)隊(duì)目前大概30人。我們凝聚了一批非常年輕、但能力很強(qiáng)的人。包括來(lái)自北大、清華的一些奧賽背景成員，也有不少來(lái)自大廠的核心工程師。

虎嗅：在擔(dān)任智源中心負(fù)責(zé)人之前，你們已經(jīng)開(kāi)始融資了嗎？整體和投資人交流下來(lái)的感受是什么？

陳博遠(yuǎn)：投資人最常問(wèn)我們的，其實(shí)有兩個(gè)問(wèn)題。第一個(gè)是：你們是不是在做真正的“基模”？第二個(gè)是：你們到底看到了什么，才決定做這件事？我們的答案，其實(shí)來(lái)自內(nèi)部實(shí)驗(yàn)。

我們已經(jīng)觀察到，隨著數(shù)據(jù)量、參數(shù)規(guī)模提升，以及引入主動(dòng)交互和狀態(tài)預(yù)測(cè)之后，模型誤差還在持續(xù)下降。所以我一直認(rèn)為，一旦世界模型的Scaling Law開(kāi)始形成行業(yè)共識(shí)，技術(shù)路線會(huì)迅速收斂。

我自己特別欣賞兩家公司：DeepSeek和DeepMind。因?yàn)檎嬲膭?chuàng)新，很多時(shí)候都來(lái)自這種研究型組織。一個(gè)方向可能一開(kāi)始只有兩三個(gè)人、幾個(gè)idea，但會(huì)不斷Scaling up，最后產(chǎn)生真正底層的突破。

我們也相信，扁平化組織本身是能夠“涌現(xiàn)”創(chuàng)新的。

虎嗅：投資人經(jīng)常會(huì)問(wèn)“基模”這個(gè)事情。你會(huì)覺(jué)得，是你們做的事情被誤解了，還是“基模”這個(gè)概念本身被誤解了？

陳博遠(yuǎn)：我覺(jué)得更多是“基模”這個(gè)概念被誤解了。“基座模型”這個(gè)詞，從一開(kāi)始出現(xiàn)，本質(zhì)上就是希望通過(guò)一套模型解決不同場(chǎng)景的問(wèn)題。

但過(guò)去幾年，“基模”這個(gè)詞被濫用了。就拿具身智能舉例，投資人稱見(jiàn)過(guò)很多團(tuán)隊(duì)其實(shí)只是基于開(kāi)源視頻模型或者開(kāi)源語(yǔ)言模型，再微調(diào)一些自己的真機(jī)數(shù)據(jù)，最后包裝成一個(gè)“預(yù)訓(xùn)練”的故事。

但我們做的，是從頭開(kāi)始做整個(gè)預(yù)訓(xùn)練架構(gòu)。也就是說(shuō)，我們真正想做的是一個(gè)通用世界基座模型，而不是一個(gè)微調(diào)后的垂類模型。

虎嗅：你擔(dān)任智源世界模型中心負(fù)責(zé)人。投資人怎么看這件事？

陳博遠(yuǎn)：逆矩陣更偏前沿探索，我們會(huì)不斷去擴(kuò)展一些新的技術(shù)方向；而在智源，我們會(huì)把已經(jīng)驗(yàn)證出的世界模型能力，進(jìn)一步放到更大規(guī)模、更通用的場(chǎng)景里做實(shí)驗(yàn)和落地。

但本質(zhì)上，大家都在做同一件事：如何構(gòu)建真正面向物理世界的通用基座模型。

虎嗅：所以我能不能理解為，智源也希望在Physical AI時(shí)代，再次“押中”像月之暗面、智譜AI、面壁智能這樣的公司？

陳博遠(yuǎn)：對(duì)，我覺(jué)得智源一直都非常重視人才和前沿研究，而且它始終是站在全球視野里看AI范式變化的。

虎嗅：所以你們團(tuán)隊(duì)年齡基本都是00后？

陳博遠(yuǎn)：對(duì)，雖然我們團(tuán)隊(duì)平均年齡在00后，不過(guò)我更愿意稱之為凝聚了一個(gè)“心態(tài)年輕化”的團(tuán)隊(duì)，無(wú)論是原大廠核心工程師，還是科研青年們，大家都是非常有沖勁的。因?yàn)槲覀儼l(fā)現(xiàn)，做這種全新的事情，需要敢于打破路徑依賴，融合不同技術(shù)背景去做出底層的第一性突破。

虎嗅：現(xiàn)在做Physical AI的產(chǎn)業(yè)，其實(shí)聚集了很多00后。它看起來(lái)很像一個(gè)“屬于00后的時(shí)代”。

陳博遠(yuǎn)：我不太想簡(jiǎn)單地把它定義成“屬于00后的時(shí)代”。Physical AI應(yīng)該屬于所有真正相信這個(gè)方向、愿意長(zhǎng)期投入、敢于做底層探索的人，而不只是屬于某一個(gè)年齡段。

但更重要的是，Physical AI不只是一個(gè)技術(shù)熱點(diǎn)。我們?cè)絹?lái)越相信，AGI的下一步一定要走向真實(shí)物理世界。過(guò)去的大模型主要理解語(yǔ)言、圖像和數(shù)字信息，而未來(lái)的世界模型需要理解真實(shí)物理世界背后的約束，理解物體如何運(yùn)動(dòng)、碰撞如何發(fā)生、能量如何轉(zhuǎn)化，以及行動(dòng)如何改變環(huán)境。只有這樣，AI才能真正進(jìn)入具身智能、工業(yè)仿真、游戲引擎、AI for Science等場(chǎng)景。

再往前看，Physical AI也和國(guó)家未來(lái)的新質(zhì)生產(chǎn)力高度相關(guān)。低空經(jīng)濟(jì)、商業(yè)航天、智能制造、能源系統(tǒng)、可控核聚變等方向，本質(zhì)上都需要AI更深地理解物理規(guī)律、復(fù)雜系統(tǒng)和真實(shí)世界的因果關(guān)系。我們真正想做的，不只是一個(gè)服務(wù)某個(gè)垂直場(chǎng)景的模型，而是面向整個(gè)物理世界的通用世界模型，為未來(lái)更多實(shí)體產(chǎn)業(yè)提供底層能力。

與其說(shuō)這是一個(gè)“屬于00后的時(shí)代”，不如說(shuō)這是一個(gè)屬于所有相信Physical AI、敢于做底層探索、愿意為國(guó)家未來(lái)產(chǎn)業(yè)基礎(chǔ)能力負(fù)責(zé)的人的時(shí)代。

本文來(lái)自虎嗅，原文鏈接：https://www.huxiu.com/article/4871588.html?f=wyxwapp

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.